Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.
모든 사람이 자신의 대형 모델을 계속 업그레이드하고 반복할 때 LLM(Large Language Model)의 컨텍스트 창 처리 능력도 중요한 평가 지표가 되었습니다.
예를 들어 유명인 대형 모델인 GPT-4는 텍스트 50페이지에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 100k(약 75,000 단어)로 늘렸습니다. 이는 원클릭 요약 "해리포터" 1부와 대략 동일합니다.
Microsoft의 최신 연구에서는 이번에 Transformer를 10억 개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.
비교하자면, 평균적인 사람은 약 5시간 안에 100,000개의 토큰을 읽을 수 있으며, 이 정보를 소화하고, 기억하고, 분석하는 데 더 오랜 시간이 걸릴 수 있습니다. Claude는 이 작업을 1분 이내에 완료할 수 있습니다. Microsoft의 이 연구 결과로 환산하면 엄청난 숫자가 될 것입니다.
Pictures
- 문서 주소: https://arxiv.org/pdf/2307.02486.pdf
- 프로젝트 주소: https://github.com/microsoft/unilm/tree/master
특히 이 연구에서는 더 짧은 시퀀스의 성능을 저하시키지 않으면서 시퀀스 길이를 10억 개 이상의 토큰으로 확장할 수 있는 Transformer 변형인 LONGNET을 제안합니다. 이 기사는 또한 모델의 인식 범위를 기하급수적으로 확장할 수 있는 확장된 주의를 제안합니다.
LONGNET에는 다음과 같은 장점이 있습니다.
1) 선형 계산 복잡성이 있습니다.
2) 더 긴 시퀀스에 대한 분산 트레이너로 사용할 수 있습니다.
3) 확장된 주의가 가능합니다. Seam 없이 사용하면 표준 주의를 대체하며 기존 Transformer 기반 최적화 방법과 원활하게 통합될 수 있습니다.
실험 결과 LONGNET은 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보이는 것으로 나타났습니다.
연구 동기 측면에서는 최근 신경망을 확장하는 것이 트렌드가 되었고, 성능이 좋은 많은 네트워크가 연구되고 있다고 논문에 나와 있습니다. 그중에서도 신경망의 일부인 시퀀스 길이는 이상적으로는 무한해야 합니다. 그러나 현실은 정반대인 경우가 많으므로 시퀀스 길이의 한계를 깨면 상당한 이점을 얻을 수 있습니다.
- 첫째, 모델에 대용량 메모리와 수용 필드를 제공하여 인간과 효과적으로 소통할 수 있습니다. 세계.
- 두 번째로, 더 긴 컨텍스트에는 모델이 훈련 데이터에서 활용할 수 있는 더 복잡한 인과 관계와 추론 경로가 포함되어 있습니다. 반대로, 종속성이 짧을수록 가짜 상관 관계가 더 많아지며 이는 모델의 일반화에 도움이 되지 않습니다.
- 세 번째로 긴 시퀀스 길이는 모델이 더 긴 컨텍스트를 탐색하는 데 도움이 될 수 있으며, 매우 긴 컨텍스트는 모델이 치명적인 망각 문제를 완화하는 데 도움이 될 수도 있습니다.
그러나 시퀀스 길이를 확장하는 데 있어 가장 큰 과제는 계산 복잡성과 모델 표현력 간의 적절한 균형을 찾는 것입니다.
예를 들어 RNN 스타일 모델은 주로 시퀀스 길이를 늘리는 데 사용됩니다. 그러나 순차적 특성으로 인해 훈련 중 병렬화가 제한되며 이는 긴 시퀀스 모델링에서 매우 중요합니다.
최근 상태 공간 모델은 훈련 중에 CNN으로 실행되고 테스트 시 효율적인 RNN으로 변환될 수 있는 시퀀스 모델링에 매우 매력적이 되었습니다. 그러나 이러한 유형의 모델은 일반 길이에서는 Transformer만큼 성능이 좋지 않습니다.
시퀀스 길이를 연장하는 또 다른 방법은 Transformer의 복잡도, 즉 self-attention의 2차 복잡도를 줄이는 것입니다. 이 단계에서는 낮은 순위 주의, 커널 기반 방법, 다운샘플링 방법 및 검색 기반 방법을 포함하여 몇 가지 효율적인 Transformer 기반 변형이 제안되었습니다. 그러나 이러한 접근 방식은 아직 Transformer를 10억 개의 토큰 규모로 확장하지 못했습니다(그림 1 참조).
Pictures
다음 표는 다양한 계산 방법의 계산 복잡도를 비교한 것입니다. N은 시퀀스 길이이고 d는 숨겨진 차원입니다.
사진
Method
연구 솔루션 LONGNET은 시퀀스 길이를 10억 개의 토큰으로 성공적으로 확장했습니다. 구체적으로 본 연구에서는 Dilated Attention이라는 새로운 구성요소를 제안하고 Vanilla Transformer의 Attention 메커니즘을 Dilated Attention으로 대체합니다. 일반적인 디자인 원칙은 토큰 사이의 거리가 증가함에 따라 주의 할당이 기하급수적으로 감소한다는 것입니다. 연구에 따르면 이 설계 접근 방식은 선형 계산 복잡성과 토큰 간의 대수 의존성을 얻는 것으로 나타났습니다. 이는 제한된 주의 리소스와 모든 토큰에 대한 액세스 간의 충돌을 해결합니다.
Pictures
구현 중에 LONGNET을 고밀도 Transformer로 변환하여 Transformer에 대한 기존 최적화 방법(예: 커널 융합, 양자화 및 분산 교육)을 원활하게 지원할 수 있습니다. 선형 복잡성을 활용하여 LONGNET은 분산 알고리즘을 사용하여 컴퓨팅 및 메모리 제약을 깨고 노드 전체에서 병렬로 훈련될 수 있습니다.
결국 본 연구에서는 시퀀스 길이를 10억 토큰으로 효과적으로 확장했으며, 런타임은 아래 그림과 같이 거의 일정했습니다. 대조적으로, 바닐라 Transformer의 런타임은 2차 복잡성으로 인해 어려움을 겪습니다.
이 연구는 다중 머리 확장 주의 메커니즘을 추가로 소개합니다. 아래 그림 3에서 볼 수 있듯이 이 연구에서는 쿼리-키-값 쌍의 서로 다른 부분을 분산시켜 서로 다른 헤드에 걸쳐 서로 다른 계산을 수행합니다.
Pictures
분산 훈련
확장된 주의력의 계산 복잡도는 으로 크게 줄어들었지만 컴퓨팅 및 메모리 제한으로 인해 시퀀스 길이를 수백만은 실현 가능하지 않습니다. 모델 병렬성[SPP+19], 시퀀스 병렬성[LXLY21, KCL+22] 및 파이프라인 병렬성[HCB+19]과 같은 대규모 모델 훈련을 위한 몇 가지 분산형 훈련 알고리즘이 있지만 이러한 방법은 LONGNET에 충분하지 않습니다. . 특히 시퀀스 차원이 매우 큰 경우.
이 연구에서는 시퀀스 차원의 분산 교육을 위해 LONGNET의 선형 계산 복잡성을 활용합니다. 아래 그림 4는 두 GPU의 분산 알고리즘을 보여주며, 이는 원하는 수의 장치로 확장될 수 있습니다.
Experiments
이 연구에서는 LONGNET을 바닐라 Transformer 및 Sparse Transformer와 비교했습니다. 아키텍처 간의 차이점은 주의 레이어이고 다른 레이어는 동일하게 유지됩니다. 연구원들은 각 배치의 토큰 수가 변경되지 않도록 배치 크기를 줄이는 동시에 이러한 모델의 시퀀스 길이를 2K에서 32K로 확장했습니다.
표 2에는 Stack 데이터세트에 대한 이러한 모델의 결과가 요약되어 있습니다. 연구에서는 복잡성을 평가 지표로 사용합니다. 모델은 2k에서 32k까지 다양한 시퀀스 길이를 사용하여 테스트되었습니다. 입력 길이가 모델이 지원하는 최대 길이를 초과하는 경우, 연구에서는 언어 모델 추론을 위한 최첨단 외삽 방법인 블록별 인과 주의(BCA) [SDP+22]를 구현합니다.
또한 연구에서는 절대 위치 인코딩을 제거했습니다. 첫째, 결과는 훈련 중에 시퀀스 길이를 늘리면 일반적으로 더 나은 언어 모델이 생성된다는 것을 보여줍니다. 둘째, 추론의 시퀀스 길이 외삽 방법은 길이가 모델이 지원하는 것보다 훨씬 큰 경우 적용되지 않습니다. 마지막으로 LONGNET은 기본 모델보다 지속적으로 뛰어난 성능을 발휘하여 언어 모델링의 효율성을 입증합니다.
시퀀스 길이의 확장 곡선
그림 6은 바닐라 트랜스포머와 LONGNET의 시퀀스 길이 확장 곡선을 나타냅니다. 본 연구에서는 행렬 곱셈의 총 실패 횟수를 계산하여 계산 노력을 추정합니다. 결과는 바닐라 변환기와 LONGNET 모두 훈련을 통해 더 큰 컨텍스트 길이를 달성한다는 것을 보여줍니다. 그러나 LONGNET은 컨텍스트 길이를 보다 효율적으로 확장하여 더 적은 계산으로 더 낮은 테스트 손실을 달성할 수 있습니다. 이는 외삽에 비해 더 긴 훈련 입력의 이점을 보여줍니다. 실험에 따르면 LONGNET은 언어 모델의 컨텍스트 길이를 확장하는 보다 효율적인 방법입니다. 이는 LONGNET이 더 긴 종속성을 보다 효율적으로 학습할 수 있기 때문입니다.
모델 크기 확장
대규모 언어 모델의 중요한 속성은 계산량이 증가함에 따라 거듭제곱 법칙에서 손실이 확장된다는 것입니다. LONGNET이 여전히 유사한 확장 규칙을 따르는지 확인하기 위해 이 연구에서는 다양한 모델 크기(1억 2,500만 개에서 27억 개의 매개변수까지)를 사용하여 일련의 모델을 훈련했습니다. 27억 개의 모델은 3000억 개의 토큰으로 훈련되었으며 나머지 모델은 약 4000억 개의 토큰을 사용했습니다. 그림 7 (a)는 계산과 관련하여 LONGNET의 확장 곡선을 나타냅니다. 이 연구에서는 동일한 테스트 세트에 대한 복잡성을 계산했습니다. 이는 LONGNET이 여전히 멱함수 법칙을 따를 수 있음을 증명합니다. 이는 또한 Dense Transformer가 언어 모델 확장을 위한 전제 조건이 아니라는 것을 의미합니다. 또한 LONGNET을 사용하면 확장성과 효율성이 향상됩니다.
긴 컨텍스트 프롬프트
프롬프트는 언어 모델을 안내하고 추가 정보를 제공하는 중요한 방법입니다. 이 연구에서는 LONGNET이 더 긴 컨텍스트 힌트 창을 통해 이점을 얻을 수 있는지 여부를 실험적으로 검증합니다.
본 연구에서는 접두사(prefixes)를 프롬프트로 유지하고 접미사(suffixes)의 난해함을 테스트했습니다. 또한 연구 과정에서 프롬프트가 2K에서 32K로 점차 확대되었습니다. 공정한 비교를 위해 접미사의 길이는 일정하게 유지하고 접두사의 길이는 모델의 최대 길이까지 늘립니다. 그림 7(b)는 테스트 세트의 결과를 보고합니다. LONGNET의 테스트 손실은 컨텍스트 창이 증가함에 따라 점차 감소하는 것을 보여줍니다. 이는 언어 모델을 개선하기 위해 긴 컨텍스트를 완전히 활용하는 LONGNET의 우수성을 입증합니다.
위 내용은 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제










![작업 표시줄에 인터넷 속도를 표시하는 방법 [쉬운 단계]](https://img.php.cn/upload/article/000/465/014/169088173253603.png?x-oss-process=image/resize,m_fill,h_207,w_330)
인터넷 속도는 온라인 경험의 결과를 결정하는 중요한 매개변수입니다. 파일을 다운로드하거나 업로드하거나 웹을 탐색하는 경우 우리 모두는 적절한 인터넷 연결이 필요합니다. 이것이 사용자가 작업 표시줄에 인터넷 속도를 표시하는 방법을 찾는 이유입니다. 작업 표시줄에 네트워크 속도를 표시하면 사용자는 진행 중인 작업에 관계없이 상황을 빠르게 모니터링할 수 있습니다. 작업 표시줄은 전체 화면 모드가 아닌 이상 항상 표시됩니다. 그러나 Windows는 작업 표시줄에 인터넷 속도를 표시하는 기본 옵션을 제공하지 않습니다. 이것이 바로 타사 도구가 필요한 이유입니다. 최고의 옵션에 대해 자세히 알아보려면 계속 읽어보세요! Windows 명령줄에서 속도 테스트를 실행하는 방법은 무엇입니까? +를 눌러 실행을 열고 power shell을 입력한 다음 ++를 누릅니다. 창문

네트워킹을 사용하는 안전 모드에서 Windows 11 컴퓨터에 인터넷 연결이 없으면 특히 시스템 문제를 진단하고 해결할 때 실망스러울 수 있습니다. 이 가이드에서는 문제의 잠재적 원인에 대해 논의하고 안전 모드에서 인터넷에 액세스할 수 있도록 하는 효과적인 솔루션을 나열합니다. 네트워킹을 사용하는 안전 모드에서는 왜 인터넷이 없나요? 네트워크 어댑터가 호환되지 않거나 올바르게 로드되지 않습니다. 타사 방화벽, 보안 소프트웨어 또는 바이러스 백신 소프트웨어는 안전 모드에서 네트워크 연결을 방해할 수 있습니다. 네트워크 서비스가 실행되고 있지 않습니다. 악성 코드 감염 Windows 11의 안전 모드에서 인터넷을 사용할 수 없는 경우 어떻게 해야 합니까? 고급 문제 해결 단계를 수행하기 전에 다음 사항을 확인하는 것이 좋습니다.

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

프랑스 파리에서 열린 최고의 컴퓨터 비전 컨퍼런스 ICCV2023이 막 끝났습니다! 올해 최우수 논문상은 그야말로 '신들의 싸움'이다. 예를 들어 최우수 논문상을 수상한 두 논문에는 빈센트 그래프 AI 분야를 전복한 작품인 ControlNet이 포함됐다. 오픈 소스 이후 ControlNet은 GitHub에서 24,000개의 별을 받았습니다. 확산 모델이든, 컴퓨터 비전 전체 분야이든, 이 논문의 수상은 당연한 것입니다. 최우수 논문상에 대한 명예로운 언급은 또 다른 유명한 논문인 Meta의 "Separate Everything" "Model SAM에 수여되었습니다. "Segment Everything"은 출시 이후 뒤에서 나온 모델을 포함해 다양한 이미지 분할 AI 모델의 "벤치마크"가 되었습니다.

Neural Radiance Fields가 2020년에 제안된 이후 관련 논문의 수가 기하급수적으로 늘어났습니다. 이는 3차원 재구성의 중요한 분야가 되었을 뿐만 아니라 자율 주행을 위한 중요한 도구로서 연구 분야에서도 점차 활발해졌습니다. NeRF는 지난 2년 동안 갑자기 등장했습니다. 주로 특징점 추출 및 일치, 에피폴라 기하학 및 삼각측량, PnP 및 번들 조정 및 기존 CV 재구성 파이프라인의 기타 단계를 건너뛰고 메쉬 재구성, 매핑 및 광 추적도 건너뛰기 때문입니다. , 2D에서 직접 입력된 이미지를 이용해 방사선장을 학습한 후, 방사선장에서 실제 사진에 가까운 렌더링 이미지를 출력합니다. 즉, 신경망을 기반으로 한 암시적 3차원 모델을 지정된 관점에 맞추도록 합니다.

생성형 AI(Generative AI)는 인공 지능 커뮤니티를 휩쓸었습니다. 개인과 기업 모두 Vincent 사진, Vincent 비디오, Vincent 음악 등과 같은 관련 모달 변환 애플리케이션을 만드는 데 열중하기 시작했습니다. 최근 ServiceNow Research, LIVIA 등 과학 연구 기관의 여러 연구자들이 텍스트 설명을 기반으로 논문에서 차트를 생성하려고 시도했습니다. 이를 위해 그들은 FigGen이라는 새로운 방법을 제안했고, 관련 논문도 ICLR2023에 TinyPaper로 포함됐다. 그림 논문 주소: https://arxiv.org/pdf/2306.00800.pdf 어떤 사람들은 '논문에서 차트를 생성하는 데 무엇이 그렇게 어렵나요?'라고 묻습니다. 이것이 과학 연구에 어떻게 도움이 됩니까?

AAAI 2023 논문 제출 마감일이 다가오던 무렵, AI 제출 그룹의 익명 채팅 스크린샷이 갑자기 Zhihu에 나타났습니다. 그 중 한 명은 "3000위안 강력한 수락" 서비스를 제공할 수 있다고 주장했습니다. 해당 소식이 알려지자 네티즌들은 곧바로 공분을 샀다. 그러나 아직 서두르지 마십시오. Zhihu 상사 "Fine Tuning"은 이것이 아마도 "언어적 즐거움"일 가능성이 높다고 말했습니다. 『파인튜닝』에 따르면 인사와 갱범죄는 어느 분야에서나 피할 수 없는 문제다. openreview의 등장으로 cmt의 다양한 단점이 점점 더 명확해졌습니다. 앞으로는 작은 서클이 운영할 수 있는 공간은 더 작아지겠지만 항상 여유가 있을 것입니다. 이는 개인적인 문제이지 투고 시스템이나 메커니즘의 문제가 아니기 때문입니다. 오픈R을 소개합니다

방금 CVPR 2023에서는 다음과 같은 기사를 발표했습니다. 올해 우리는 기록적인 9,155편의 논문을 접수했으며(CVPR2022보다 12% 더 많음), 2,360편의 논문을 접수했으며 합격률은 25.78%입니다. 통계에 따르면 2010년부터 2016년까지 7년간 CVPR 제출 건수는 1,724건에서 2,145건으로 증가하는 데 그쳤다. 2017년 이후 급등하며 급속한 성장기에 접어들었고, 2019년에는 처음으로 5,000건을 돌파했고, 2022년에는 투고 건수가 8,161건에 이르렀다. 보시다시피 올해 총 9,155편의 논문이 제출되어 역대 최고 기록을 세웠습니다. 전염병이 완화된 후 올해 CVPR 정상회담은 캐나다에서 개최될 예정입니다. 올해는 단일 트랙 컨퍼런스 형식을 채택하고 기존 구술 선발 방식을 폐지한다. 구글 조사
