LeCun은 이를 지원합니다. Ma Yi 교수의 5년 걸작: ViT보다 성능이 떨어지지 않는 완전히 수학적으로 해석 가능한 화이트박스 변압기입니다.
지난 10여년 동안 AI의 급속한 발전은 주로 공학 실습의 발전에 기인합니다. AI 이론은 알고리즘 개발을 안내하는 역할을 하지 못했습니다. 경험적으로 설계된 신경망은 여전히 블랙박스입니다.
ChatGPT의 인기로 인해 AI의 능력은 사회를 위협하고 납치할 정도로 끊임없이 과장되고 과대평가되었습니다. Transformer 아키텍처 설계를 투명하게 만드는 것이 시급합니다!
최근 Ma Yi 교수팀은 수학으로 완벽하게 설명할 수 있는 화이트박스 변압기 모델 CRATE를 설계하고 실제 데이터 세트 ImageNet에서 ViT에 가까운 성과를 달성한 최신 연구 결과를 발표했습니다. -1K 성능.
코드 링크: https://github.com/Ma-Lab-Berkeley/CRATE
논문 링크: https://arxiv.org/abs/2306.01129
여기 이 논문에서 연구자들은 표현 학습의 목표가 데이터 분포(예: 토큰 세트)를 압축하고 변환하여 일관성 없는 부분 공간에서 저차원 가우스 분포의 혼합을 지원하는 것이라고 믿습니다. 최종 표현의 품질은 다음에 의해 결정될 수 있습니다. 희소 비율 감소의 통합 목적 함수로 측정됩니다.
이러한 관점에서 Transformer와 같은 인기 있는 심층 네트워크 모델은 자연스럽게 이 목표를 점진적으로 최적화하기 위한 반복 방식을 구현하는 것으로 간주될 수 있습니다.
특히, 결과는 표준 Transformer 블록이 이 목표의 보완적인 부분의 교대 최적화로부터 파생될 수 있음을 보여줍니다. 다중 헤드 self-attention 연산자는 손실 인코딩을 최소화하여 토큰 세트를 압축하는 것으로 볼 수 있습니다 rate 경사하강법 단계와 후속 다층 퍼셉트론은 토큰 표현을 희소화하려는 것으로 생각할 수 있습니다.
이 발견은 또한 수학적으로 완전히 해석할 수 있는 일련의 화이트박스 Transformer와 같은 심층 네트워크 아키텍처의 설계를 촉발시켰지만 실험 결과는 이러한 네트워크가 설계 목표인 압축 및 최적화를 학습하는 것으로 나타났습니다. ImageNet과 같은 대규모 실제 시각적 데이터 세트를 희박하게 표현하고 고도로 엔지니어링된 ViT(변환기 모델)에 가까운 성능을 달성합니다.
Turing Award 수상자 Yann LeCun도 Ma Yi 교수의 작업에 동의했으며 Transformer가 LISTA(Learned Iterative Shrinkage and Thresholding Algorithm)와 유사한 방법을 사용하여 희소 압축을 점진적으로 최적화한다고 믿었습니다.
Ma Yi 교수는 1995년 칭화대학교에서 자동화 및 응용 수학 학사 학위를, 1997년 캘리포니아 대학교 버클리에서 EECS 석사 학위, 수학과 박사 학위를 취득했습니다. 2000년 EECS에서.
Ma Yi 교수는 2018년 캘리포니아대학교 버클리캠퍼스 전기공학 및 컴퓨터공학과에 부임했으며 올해 1월 홍콩대학교 데이터연구소장으로 부임했습니다. 과학 그는 최근 홍콩대학교 컴퓨터학과 학장을 맡았습니다.
주요 연구 방향은 3차원 컴퓨터 비전, 고차원 데이터를 위한 저차원 모델, 확장성 최적화, 머신러닝입니다. 최근 연구 주제로는 대규모 3차원 기하학적 재구성과 상호작용, 저차원 모델과 모델 간의 관계 등이 있습니다. 심층 네트워크 .
Transformer를 화이트 박스로 만들기
이 문서의 주요 목적은 보다 통합된 프레임워크를 사용하여 Transformer와 유사한 네트워크 구조를 설계하여 수학적 해석 가능성과 우수한 실제 성능을 달성하는 것입니다.
이를 위해 연구원들은 입력 데이터(토큰 세트)의 최소 압축 및 가장 희소한 표현을 얻기 위해 일련의 증분 매핑을 학습하여 통합 목적 함수를 최적화, 즉 희소율을 줄이는 것을 제안했습니다.
이 프레임워크는 "Transformer 모델 및 self-attention", "확산 모델 및 노이즈 감소", "구조 탐색 모델 및 속도 감소"의 세 가지 겉보기에 다른 방법을 통합하고 Transformer와 같은 심층 네트워크 계층을 보여줍니다. 희소성 감소 목표를 점진적으로 최적화하기 위해 반복적 최적화 계획을 펼치는 것에서 자연스럽게 파생될 수 있습니다. 연구원들은 이상적인 토큰 분포 모델을 사용하여 차원 부분 공간 계열이 반복적으로 노이즈를 제거한 후 낮은 방향으로 갈수록 관련 점수 함수가 Transformer의 self-attention 연산자와 유사한 명시적인 형태를 취한다는 것을 보여주었습니다.
연구원들은 속도 감소의 손실 코딩 속도 부분을 최소화하기 위해 펼쳐진 경사 하강 단계로 다중 헤드 self-attention 레이어를 도출했습니다. 이는 self-attention 레이어를 압축된 토큰 표현으로 해석하는 또 다른 방법을 보여줍니다.
희소 코딩을 위한 ISTA(반복적 축소 임계 알고리즘)를 통한 MLP
연구원들은 Transformer 블록의 다중 헤드 self-attention 레이어를 따르는 다중 레이어 퍼셉트론이 다음과 같이 해석될 수 있음을 보여주었습니다. 토큰 표현 희소 인코딩을 구성하여 희소율 감소 목표 나머지를 점진적으로 최적화하는 계층)으로 대체될 수 있습니다.CRATE
위의 이해를 바탕으로 연구원들은 새로운 화이트박스 Transformer 아키텍처 CRATE(Coding RAte Reduction TransformEr)를 만들었습니다. 학습 목적 함수, 딥 러닝 아키텍처 및 최종 학습 표현은 모두 수학적으로 설명될 수 있습니다. 각 계층은 희소성 감소 목표를 최적화하기 위해 교대 최소화 알고리즘의 한 단계를 수행합니다.
CRATE는 건설의 모든 단계에서 가능한 가장 간단한 구축 방법을 선택했음을 알 수 있습니다. 새로 구축된 부품은 동일한 개념적 역할을 유지하는 한 직접 교체되고 새로운 부품이 될 수 있습니다. 화이트박스 아키텍처를 얻게 됩니다.
실험 부분연구원의 실험 목표는 기본 디자인을 사용하여 잘 설계된 다른 트랜스포머와 경쟁하는 것뿐만 아니라 다음도 포함합니다.
1. 일반적으로 엔드 투에서만 평가되는 것과의 비교. -최종 성능 경험적으로 설계된 블랙박스 네트워크와 달리 화이트박스로 설계된 네트워크는 심층 아키텍처 내부를 살펴보고
학습된 네트워크의 레이어가 실제로 설계 목표를 수행하는지 확인할 수 있습니다. 즉, 목표를 점진적으로 최적화합니다.
2. CRATE 아키텍처는 간단하지만 실험 결과는
이 아키텍처의 엄청난 잠재력을 검증해야 합니다. 즉, 대규모 실제 데이터 세트에서 고도로 엔지니어링된 Transformer 모델과 일치하는 성능을 달성할 수 있으며 .
모델 아키텍처
토큰 크기, 헤드 수 및 레이어 수를 변경하여 연구원들은 CRATE-Tiny, CRATE-Small, CRATE-로 표시되는 다양한 크기의 4가지 CRATE 모델을 만들었습니다. 기본 및 CRATE-Large
데이터 세트 및 최적화 이 기사에서는 주로 ImageNet-1K를 테스트 플랫폼으로 간주하고 Lion 최적화 프로그램을 사용하여 다양한 모델 크기의 CRATE 모델을 교육합니다. CRATE의 전이 학습 성능도 평가되었습니다. ImageNet-1K에서 훈련된 모델을 사전 훈련된 모델로 사용한 다음 일반적으로 사용되는 여러 다운스트림 데이터 세트(CIFAR10/100, Oxford Flowers, Oxford- IIT-Pets) CRATE를 미세 조정하세요. CRATE의 레이어가 디자인 목표를 달성했나요? 레이어 인덱스가 증가함에 따라 대부분의 경우 CRATE-Small 모델의 압축 및 희소화 항이 향상되는 것을 알 수 있으며, 마지막 레이어의 희소성 측정값의 증가는 다음과 같습니다. 분류를 위한 추가 선형 레이어. 결과는 CRATE가 원래 디자인 목표에 잘 맞는다는 것을 보여줍니다. 일단 학습되면 기본적으로 레이어를 통해 표현을 점진적으로 압축하고 희소화하는 방법을 학습합니다. 다른 크기의 CRATE 모델과 중간 모델 체크포인트에 대한 압축 및 희소화 조건을 측정한 후, 실험 결과는 여전히 레이어가 많을수록 목표를 더 효과적으로 최적화하는 경향이 있음을 알 수 있습니다. 확인 각 계층의 역할에 대한 이전 이해를 향상시킵니다. 성능 비교 제안된 네트워크의 실증적 성능은 ImageNet-1K의 최고 정확도와 널리 사용되는 여러 다운스트림 데이터 세트의 전이 학습 성능을 측정하여 연구됩니다. 설계된 아키텍처는 어텐션 블록(MSSA)과 MLP 블록(ISTA) 모두에서 매개변수 공유를 활용하므로 CRATE-Base 모델(2208만) 및 ViT-Small(2205만)의 매개변수 수량은 비슷합니다. 모델 매개변수 수가 비슷한 경우 기사에서 제안한 네트워크는 ViT와 유사한 ImageNet-1K 및 전이 학습 성능을 달성하지만 CRATE의 설계가 더 간단하고 해석하기 쉽다는 것을 알 수 있습니다. 또한 CRATE는 동일한 교육 하이퍼 매개변수 하에서 계속 확장할 수 있습니다. 즉, 모델 크기를 늘려 지속적으로 성능을 향상시키는 반면 ImageNet-1K에서 ViT 크기를 직접 늘리는 것이 항상 일관된 결과로 이어지는 것은 아닙니다. 성능 개선. 즉, CRATE 네트워크는 단순함에도 불구하고 이미 대규모 실제 데이터 세트에 필요한 압축 및 희소 표현을 학습할 수 있으며 분류 및 전이 학습과 같은 다양한 작업에서 더 나은 결과를 얻을 수 있습니다. 엔지니어링된 Transformer 네트워크(예: ViT)의 성능과 비슷합니다.
위 내용은 LeCun은 이를 지원합니다. Ma Yi 교수의 5년 걸작: ViT보다 성능이 떨어지지 않는 완전히 수학적으로 해석 가능한 화이트박스 변압기입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.
