기술 주변기기 일체 포함 언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

Jul 17, 2024 pm 04:08 PM
산업

대형 모델의 성능이 125M에서 1.3B로 향상되었습니다.


믿을 수 없는 일이 드디어 일어났습니다.

지금까지 AI 분야에서 인기를 끌었던 Transformer를 대체할 새로운 LLM(대형 언어 모델) 아키텍처가 예상되며 성능은 Mamba보다 뛰어납니다. 월요일 인공지능 커뮤니티에서는 TTT(Test-Time Training)에 관한 논문이 화제가 되었습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

논문 링크: https://arxiv.org/abs/2407.04620

이 연구의 저자는 스탠포드 대학, 캘리포니아 대학, 버클리, 캘리포니아 대학, 샌디에고 및 Meta 출신입니다. 그들은 RNN의 숨겨진 상태를 기계 학습 모델로 대체하는 새로운 아키텍처 TTT를 설계했습니다. 모델은 입력 토큰의 실제 경사하강법을 통해 컨텍스트를 압축합니다.

이 연구의 저자 중 한 명인 Karan Dalal은 이것이 언어 모델 접근 방식을 근본적으로 바꿀 것이라고 믿습니다.
언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.
기계 학습 모델에서 TTT 계층은 Attention을 직접 대체하고 표현 메모리를 통해 선형 복잡성 아키텍처를 잠금 해제하여 상황에 맞는 수백만(때로는 수십억) 개의 토큰으로 LLM을 교육할 수 있습니다.

저자는 매개변수 크기가 125M에서 1.3B까지인 대형 모델에 대해 일련의 비교를 수행한 결과 TTT-Linear와 TTT-MLP가 모두 가장 강력한 Transformer 및 Mamba 아키텍처 방법과 일치하거나 패배할 수 있음을 발견했습니다.

새로운 정보 압축 및 모델 메모리 메커니즘인 TTT 레이어는 Transformer의 self-attention 레이어를 간단하고 직접적으로 대체할 수 있습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

Mamba와 비교하여 TTT-Linear는 복잡성이 낮고 FLOP가 적으며(왼쪽) 긴 컨텍스트를 더 잘 활용합니다(오른쪽).

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

이것은 이론 복잡성이 선형일 뿐만 아니라 실제 실행에서도 시간도 빨라지고.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

  • 논문이 온라인에 게재된 후 저자는 사람들이 훈련하고 테스트할 수 있도록 코드와 jax를 공개했습니다: https://github.com/test-time-training/ttt-lm-jax
  • 또한 PyTorch 추론 코드: https://github.com/test-time-training/ttt-lm-pytorch

방법 소개

긴 컨텍스트에 대한 과제는 RNN 레이어의 특성: self-attention 메커니즘과 달리 RNN 레이어는 컨텍스트를 고정된 크기의 숨겨진 상태로 압축해야 하며 업데이트 규칙은 수천 또는 심지어 수백만 개의 토큰 간의 기본 구조와 관계를 발견해야 합니다.

연구팀은 먼저 자기 지도 학습이 대규모 훈련 세트를 LLM과 같은 모델의 가중치로 압축할 수 있다는 점을 관찰했으며, LLM 모델은 종종 훈련 데이터 간의 의미론적 연결에 대한 깊은 이해를 보여줍니다.

이 관찰에서 영감을 받아 연구팀은 숨겨진 상태가 모델이고 업데이트 규칙이 자기 지도 학습 단계인 새로운 클래스의 시퀀스 모델링 레이어를 설계했습니다. 테스트 시퀀스의 숨겨진 상태를 업데이트하는 프로세스는 테스트 시 모델을 교육하는 것과 동일하므로 연구팀은 이 새로운 레이어를 TTT(Test-Time Training) 레이어라고 부릅니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

연구팀은 TTT-Linear와 TTT-MLP라는 두 가지 간단한 예를 소개합니다. 여기서 숨겨진 상태는 각각 선형 모델과 2계층 MLP입니다. TTT 레이어는 RNN 레이어 및 self-attention과 유사하게 모든 네트워크 아키텍처에 통합되고 엔드투엔드를 최적화할 수 있습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

TTT 레이어를 더 효율적으로 만들기 위해 연구에서는 TTT 레이어를 개선하기 위한 몇 가지 트릭을 채택했습니다.

첫 번째, 더 나은 병렬성을 얻기 위해 정규 학습 중에 미니 배치 시퀀스에 대한 그라데이션 단계를 취하는 것과 유사하게, 연구에서는 TTT 동안 소량의 토큰을 사용하세요.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

두 번째로, 이 연구는 최신 GPU 및 TPU를 더 잘 활용하기 위해 각 TTT 미니 배치 내에서 작업을 위한 이중 형식을 개발합니다. 이중 형식의 출력은 단순 구현과 동일하지만 훈련 속도가 5배 이상 빠릅니다. 그림 3에서 볼 수 있듯이 TTT-Linear는 Transformer보다 빠르며 8k 환경에서 Mamba와 비슷합니다.

연구팀은 모든 시퀀스 모델링 레이어가 그림 4와 같이 역사적 맥락을 숨겨진 상태로 저장하는 것으로 볼 수 있다고 믿습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

예를 들어 LSTM, RWKV 및 Mamba 레이어와 같은 RNN 레이어는 시간이 지남에 따라 컨텍스트를 고정 크기 상태로 압축합니다. 이 압축에는 두 가지 결과가 있습니다. 한편으로는 각 토큰에 대한 업데이트 규칙과 출력 규칙에 일정한 시간이 필요하기 때문에 입력 토큰 x_t를 출력 토큰 z_t에 매핑하는 것이 효율적입니다. 반면, 긴 컨텍스트에서 RNN 레이어의 성능은 숨겨진 상태 s_t의 표현력에 의해 제한됩니다.

Self-attention은 숨겨진 상태(키-값 캐시라고도 함)가 t에 따라 선형적으로 증가하는 목록이라는 점을 제외하면 위의 관점에서도 볼 수 있습니다. 업데이트 규칙은 단순히 현재 KV 튜플을 이 목록에 추가하는 반면, 출력 규칙은 t 이전의 모든 튜플을 검색하여 어텐션 매트릭스를 형성합니다. 숨겨진 상태는 압축 없이 모든 기록 컨텍스트를 명시적으로 저장하므로 긴 컨텍스트에 대한 RNN 레이어보다 self-attention이 더 표현력이 좋습니다. 그러나 선형적으로 증가하는 숨겨진 상태를 스캔하는 데 필요한 시간도 선형적으로 증가합니다. 긴 컨텍스트를 효율적이고 표현력 있게 유지하려면 연구자에게는 더 나은 압축 휴리스틱이 필요합니다. 특히, 수천 또는 수백만 개의 토큰을 기본 구조와 관계를 효과적으로 포착하는 숨겨진 상태로 압축해야 합니다. 어렵게 들릴 수도 있지만 실제로 많은 사람들이 이 경험적 방법에 매우 익숙합니다.

백본 아키텍처. RNN 레이어를 더 큰 아키텍처에 통합하는 가장 깔끔한 방법은 여기서 백본이라고 불리는 Transformer의 셀프 어텐션을 직접 교체하는 것입니다. 그러나 기존 RNN(예: Mamba 및 Griffin)은 Transformer와 다른 백본 레이어를 사용합니다. 특히 백본 레이어에는 RNN 레이어 앞에 시간적 컨볼루션이 포함되어 있어 시간에 따른 로컬 정보를 수집하는 데 도움이 될 수 있습니다. 연구진은 Mamba 백본을 실험한 결과 TTT 레이어의 Perplexity도 개선할 수 있다는 사실을 발견하여 그림 16과 같이 제안된 방법에 포함시켰습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

실험 결과

실험에서 연구자들은 TTT-Linear와 TTT-MLP를 Transformer와 Mamba, 두 가지 기준선과 비교했습니다.

짧은 텍스트

그림 11에서 다음과 같은 결론을 내릴 수 있습니다.

  • 2k 컨텍스트에서 TTT-Linear(M), Mamba 및 Transformer의 성능은 비슷합니다. 선의 대부분이 겹칩니다. TTT-MLP(M)는 FLOP 예산이 클수록 성능이 약간 떨어집니다. TTT-MLP는 다양한 모델 크기에서 TTT-Linear보다 복잡도가 더 높지만 FLOP의 추가 비용이 이러한 이점을 상쇄합니다.
  • 8k 컨텍스트의 경우 TTT-Linear(M)와 TTT-MLP(M) 모두 Mamba보다 성능이 훨씬 뛰어나며 이는 2k 컨텍스트의 관찰과는 상당히 다릅니다. Transformer 백본 네트워크를 사용하는 TTT-MLP(T)도 약 1.3B로 Mamba보다 약간 더 좋습니다. 중요한 현상은 컨텍스트 길이가 증가함에 따라 Mamba 계층에 비해 TTT 계층의 장점도 확장된다는 것입니다.
  • 컨텍스트 길이가 8k에 도달하면 Transformer는 각 모델 크기에서 여전히 우수한 성능을 발휘하지만 FLOP 비용으로 인해 더 이상 경쟁력이 없습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

위 결과는 TTT 레이어를 Mamba 백본 네트워크에서 Transformer 백본 네트워크로 전환할 때의 영향을 보여줍니다. 연구원들은 시퀀스 모델링 계층의 숨겨진 상태가 덜 표현될 때 Mamba 백본 네트워크의 시간적 컨볼루션이 더 유용하다는 가설을 세웠습니다. 선형 모델은 MLP보다 표현력이 떨어지므로 컨볼루션의 이점을 더 많이 얻습니다.

긴 텍스트: 책

긴 컨텍스트의 기능을 평가하기 위해 Pile의 인기 있는 하위 집합인 Books3을 사용하여 1k에서 32k까지 2x 증분으로 컨텍스트 길이를 실험했습니다. 여기서의 훈련 방법은 Pile과 동일하며 TTT 레이어에 대한 모든 실험은 한 번의 훈련 실행으로 수행됩니다. 그림 12의 결과 하위 집합에서 그들은 다음과 같은 관찰을 했습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

Books 2k의 맥락에서 Pile 2k에 대한 모든 관찰은 여전히 ​​유지됩니다. 단, Mamba는 이제 TTT-Linear보다 약간 더 나은 성능을 발휘합니다. Pile 2k에서는 선이 대략 겹칩니다.

32k 맥락에서 TTT-Linear(M)와 TTT-MLP(M)는 모두 Pile 8k에 대한 관찰과 유사하게 Mamba보다 더 나은 성능을 발휘합니다. Transformer 백본을 갖춘 TTT-MLP(T)도 32k 컨텍스트에서는 Mamba보다 성능이 약간 더 좋습니다.

TTT-MLP(T)는 1.3B 규모에서 TTT-MLP(M)보다 약간 더 나쁠 뿐입니다. 위에서 언급한 바와 같이, 명확한 선형 적합도가 부족하여 경험적 스케일링 법칙을 도출하기가 어렵습니다. 그러나 TTT-MLP(T)의 강력한 추세는 Transformer 백본이 우리 평가 범위를 넘어서 더 큰 모델과 더 긴 컨텍스트에 더 적합할 수 있음을 시사합니다.

시계 시간

LLM의 훈련과 추론은 순방향, 역방향, 세대로 분해될 수 있습니다. 추론 중 큐 워드 처리(사전 채우기라고도 함)는 역방향 작업에 중간 활성화 값을 저장할 필요가 없다는 점을 제외하면 훈련 중 순방향 작업과 동일합니다.

순방향(훈련 및 추론 중)과 역방향이 모두 병렬로 처리될 수 있으므로 여기서는 이중 형식이 사용됩니다. 새로운 토큰 생성(디코딩이라고도 함)은 본질적으로 순차적이므로 여기서는 원시 형식이 사용됩니다.

연구원은 리소스 제한으로 인해 이 기사의 실험은 JAX로 작성되었으며 TPU에서 실행되었다고 언급했습니다. v5e-256 TPU Pod에서 Transformer 기준은 2k 컨텍스트로 학습하는 데 반복당 0.30초가 걸리는 반면, TTT-Linear는 반복당 0.27초가 소요됩니다. 이는 시스템 최적화 없이 10% 더 빠릅니다. Mamba(PyTorch, Triton 및 CUDA로 구현됨)는 GPU에서만 실행될 수 있으므로 공정한 비교를 위해 연구원들은 이 방법에 대해 예비 시스템 최적화를 수행하여 GPU에서 실행될 수 있도록 했습니다.

그림 15의 왼쪽은 배치 크기 16에서 각 모델에 대한 순방향 커널의 대기 시간을 보여줍니다. 모든 모델은 1.3B입니다(Mamba는 1.4B). 여기서는 HuggingFace Transformer 대신 vLLM이 사용되었기 때문에 여기의 Transformer 기준선이 Mamba 논문의 기준선보다 훨씬 빠르다는 점은 주목할 가치가 있습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

또한 연구원들은 세대를 위한 또 다른 GPU 커널을 작성하고 그림 15의 오른쪽에 배치 크기 512로 속도를 벤치마킹했습니다. 일반적으로 사용되는 또 다른 벽시계 시간 측정 기준은 처리량입니다. 이는 더 큰 배치 크기를 사용할 때의 잠재적 이점을 고려합니다. 처리량의 경우 위의 모든 관찰과 방법 간 순서가 여전히 유지됩니다.

주저자

TTT 연구가 제출된 후 논문의 저자 중 한 명인 UCSD 조교수 Xiaolong Wang이 축하 메시지를 트윗했습니다. 그는 TTT에 대한 연구는 1년 반 동안 진행됐지만 실제로는 TTT(Test Time Training)라는 아이디어가 탄생한 지 5년이 됐다고 말했다. 원래 아이디어와 현재 결과는 완전히 다르지만.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

TTT 논문의 세 명의 주요 저자는 각각 Stanford, UC Berkeley 및 UCSD 출신입니다.

그 중 유선님은 스탠포드 대학교에서 박사후 연구원으로 UC Berkeley EECS에서 박사 학위를 취득했으며, 장기 연구 방향은 TTT입니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

Xinhao Li는 UCSD에서 박사 과정을 밟고 있으며 중국 전자 과학 기술 대학교를 졸업했습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

Karan Dalal은 UC Berkeley의 박사 과정 지원자이며 고등학교 시절 Otto라는 수의학 원격 의료 스타트업을 공동 창립했습니다.

언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.

위 세 사람은 모두 개인 홈페이지 첫 줄에 연구 방향을 소개하는 시험 훈련 글을 썼습니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 언어 모델을 완전히 변경합니다. 새로운 아키텍처 TTT가 Transformer를 능가하고 ML 모델이 RNN 숨겨진 상태를 대체합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

딥마인드 로봇이 탁구를 치는데 포핸드와 백핸드가 공중으로 미끄러져 인간 초보자를 완전히 제압했다. 딥마인드 로봇이 탁구를 치는데 포핸드와 백핸드가 공중으로 미끄러져 인간 초보자를 완전히 제압했다. Aug 09, 2024 pm 04:01 PM

하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

최초의 기계식 발톱! Yuanluobao는 2024년 세계 로봇 회의에 등장하여 집에 들어갈 수 있는 최초의 체스 로봇을 출시했습니다. 최초의 기계식 발톱! Yuanluobao는 2024년 세계 로봇 회의에 등장하여 집에 들어갈 수 있는 최초의 체스 로봇을 출시했습니다. Aug 21, 2024 pm 07:33 PM

8월 21일, 2024년 세계로봇대회가 베이징에서 성대하게 개최되었습니다. SenseTime의 홈 로봇 브랜드 "Yuanluobot SenseRobot"은 전체 제품군을 공개했으며, 최근에는 Yuanluobot AI 체스 두는 로봇인 체스 프로페셔널 에디션(이하 "Yuanluobot SenseRobot")을 출시하여 세계 최초의 A 체스 로봇이 되었습니다. 집. Yuanluobo의 세 번째 체스 게임 로봇 제품인 새로운 Guoxiang 로봇은 AI 및 엔지니어링 기계 분야에서 수많은 특별한 기술 업그레이드와 혁신을 거쳤으며 처음으로 3차원 체스 말을 집는 능력을 실현했습니다. 가정용 로봇의 기계 발톱을 통해 체스 게임, 모두 체스 게임, 기보 복습 등과 같은 인간-기계 기능을 수행합니다.

클로드도 게으르게 됐어요! 네티즌 : 휴가를 보내는 법을 배우십시오 클로드도 게으르게 됐어요! 네티즌 : 휴가를 보내는 법을 배우십시오 Sep 02, 2024 pm 01:56 PM

개학이 코앞으로 다가왔습니다. 새 학기를 앞둔 학생들뿐만 아니라 대형 AI 모델도 스스로 관리해야 합니다. 얼마 전 레딧에는 클로드가 게으르다고 불평하는 네티즌들이 붐볐습니다. "레벨이 많이 떨어졌고, 자주 멈췄고, 심지어 출력도 매우 짧아졌습니다. 출시 첫 주에는 4페이지 전체 문서를 한 번에 번역할 수 있었지만 지금은 반 페이지도 출력하지 못합니다. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ "클로드에게 완전히 실망했습니다"라는 제목의 게시물에

세계로봇컨퍼런스에서 '미래 노인돌봄의 희망'을 담은 국산 로봇이 포위됐다. 세계로봇컨퍼런스에서 '미래 노인돌봄의 희망'을 담은 국산 로봇이 포위됐다. Aug 22, 2024 pm 10:35 PM

베이징에서 열린 세계로봇컨퍼런스에서는 휴머노이드 로봇의 전시가 현장의 절대 화두가 됐다. 스타더스트 인텔리전트 부스에서는 AI 로봇 어시스턴트 S1이 덜시머, 무술, 서예 3대 퍼포먼스를 선보였다. 문학과 무술을 모두 갖춘 하나의 전시 공간은 수많은 전문 관객과 미디어를 끌어 모았습니다. 탄력 있는 현의 우아한 연주를 통해 S1은 정밀한 작동과 속도, 힘, 정밀성을 갖춘 절대적인 제어력을 보여줍니다. CCTV 뉴스는 '서예'의 모방 학습 및 지능형 제어에 대한 특별 보도를 진행했습니다. 회사 설립자 Lai Jie는 부드러운 움직임 뒤에 하드웨어 측면이 최고의 힘 제어와 가장 인간과 유사한 신체 지표(속도, 하중)를 추구한다고 설명했습니다. 등)이지만 AI측에서는 사람의 실제 움직임 데이터를 수집해 로봇이 강한 상황에 직면했을 때 더욱 강해지고 빠르게 진화하는 방법을 학습할 수 있다. 그리고 민첩하다

ACL 2024 시상식 발표: HuaTech의 Oracle 해독에 관한 최고의 논문 중 하나, GloVe Time Test Award ACL 2024 시상식 발표: HuaTech의 Oracle 해독에 관한 최고의 논문 중 하나, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다. ACL2024는 6일간 태국 방콕에서 개최됩니다. ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위를 항상 차지하고 있으며, CCF-A 추천 컨퍼런스이기도 합니다. 올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수논문상 7개(미출판 2개), 우수주제상 1개, 우수논문상 35개가 있다. 이 컨퍼런스에서는 또한 3개의 리소스 논문상(ResourceAward)과 사회적 영향상(Social Impact Award)을 수상했습니다.

Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다. Li Feifei 팀은 로봇에 공간 지능을 제공하고 GPT-4o를 통합하기 위해 ReKep을 제안했습니다. Sep 03, 2024 pm 05:18 PM

비전과 로봇 학습의 긴밀한 통합. 최근 화제를 모으고 있는 1X 휴머노이드 로봇 네오(NEO)와 두 개의 로봇 손이 원활하게 협력해 옷 개기, 차 따르기, 신발 싸기 등을 하는 모습을 보면 마치 로봇 시대로 접어들고 있다는 느낌을 받을 수 있다. 실제로 이러한 부드러운 움직임은 첨단 로봇 기술 + 정교한 프레임 디자인 + 다중 모드 대형 모델의 산물입니다. 우리는 유용한 로봇이 종종 환경과 복잡하고 절묘한 상호작용을 요구한다는 것을 알고 있으며, 환경은 공간적, 시간적 영역에서 제약으로 표현될 수 있습니다. 예를 들어, 로봇이 차를 따르도록 하려면 먼저 로봇이 찻주전자 손잡이를 잡고 차를 흘리지 않고 똑바로 세운 다음, 주전자 입구와 컵 입구가 일치할 때까지 부드럽게 움직여야 합니다. 을 누른 다음 주전자를 특정 각도로 기울입니다. 이것

분산 인공지능 컨퍼런스 DAI 2024 Call for Papers: Agent Day, 강화학습의 아버지 Richard Sutton이 참석합니다! Yan Shuicheng, Sergey Levine 및 DeepMind 과학자들이 기조 연설을 할 예정입니다. 분산 인공지능 컨퍼런스 DAI 2024 Call for Papers: Agent Day, 강화학습의 아버지 Richard Sutton이 참석합니다! Yan Shuicheng, Sergey Levine 및 DeepMind 과학자들이 기조 연설을 할 예정입니다. Aug 22, 2024 pm 08:02 PM

컨퍼런스 소개 과학기술의 급속한 발전과 함께 인공지능은 사회 발전을 촉진하는 중요한 힘이 되었습니다. 이 시대에 우리는 분산인공지능(DAI)의 혁신과 적용을 목격하고 참여할 수 있어 행운입니다. 분산 인공지능(Distributed Artificial Intelligence)은 인공지능 분야의 중요한 한 분야로, 최근 몇 년간 점점 더 많은 주목을 받고 있습니다. 대규모 언어 모델(LLM) 기반 에이전트가 갑자기 등장했습니다. 대규모 모델의 강력한 언어 이해와 생성 기능을 결합하여 자연어 상호 작용, 지식 추론, 작업 계획 등에 큰 잠재력을 보여주었습니다. AIAgent는 빅 언어 모델을 이어받아 현재 AI계에서 화제가 되고 있습니다. 오

홍멍 스마트 트래블 S9과 풀시나리오 신제품 출시 컨퍼런스, 다수의 블록버스터 신제품이 함께 출시됐다 홍멍 스마트 트래블 S9과 풀시나리오 신제품 출시 컨퍼런스, 다수의 블록버스터 신제품이 함께 출시됐다 Aug 08, 2024 am 07:02 AM

오늘 오후 Hongmeng Zhixing은 공식적으로 새로운 브랜드와 신차를 환영했습니다. 8월 6일, Huawei는 Hongmeng Smart Xingxing S9 및 Huawei 전체 시나리오 신제품 출시 컨퍼런스를 개최하여 파노라마식 스마트 플래그십 세단 Xiangjie S9, 새로운 M7Pro 및 Huawei novaFlip, MatePad Pro 12.2인치, 새로운 MatePad Air, Huawei Bisheng을 선보였습니다. 레이저 프린터 X1 시리즈, FreeBuds6i, WATCHFIT3 및 스마트 스크린 S5Pro를 포함한 다양한 새로운 올-시나리오 스마트 제품, 스마트 여행, 스마트 오피스, 스마트 웨어에 이르기까지 화웨이는 풀 시나리오 스마트 생태계를 지속적으로 구축하여 소비자에게 스마트한 경험을 제공합니다. 만물인터넷. Hongmeng Zhixing: 스마트 자동차 산업의 업그레이드를 촉진하기 위한 심층적인 권한 부여 화웨이는 중국 자동차 산업 파트너와 손을 잡고

See all articles