목차
대형 모델 외삽 기능을 향상시키는 "메커니즘"
이 규칙을 익히면 맥락은 쉽습니다. 100w+
기술 주변기기 일체 포함 LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

Oct 21, 2023 pm 02:25 PM
데이터 연구

몇 가지 조정만으로 대형 모델 지원 컨텍스트 크기를 16,000개 토큰에서 100만으로 확장할 수 있습니까? !

아직도 LLaMA 2에는 70억 개의 매개변수만 있습니다.

현재 인기 있는 Claude 2와 GPT-4도 100,000과 32,000의 컨텍스트 길이만 지원한다는 점을 알아야 합니다. 이 범위를 벗어나면 대형 모델은 말도 안 되는 말을 하기 시작하고 내용을 기억하지 못하게 됩니다.

이제 푸단대학교와 상하이 인공 지능 연구소의 새로운 연구에서는 일련의 대형 모델에 대해 컨텍스트 창의 길이를 늘리는 방법을 찾았을 뿐만 아니라 규칙도 발견했습니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

이 규칙에 따르면 1개의 하이퍼 매개변수만 조정하면, 대형 모델의 외삽 성능을 안정적으로 향상시키면서 출력 효과를 보장할 수 있습니다.

외삽이란 대형 모델의 입력 길이가 사전 훈련된 텍스트의 길이를 초과할 때 출력 성능의 변화를 의미합니다. 외삽 능력이 좋지 않은 경우 입력 길이가 사전 훈련된 텍스트의 길이를 초과하면 대형 모델은 "말도 안 되는 소리"를 합니다.

그렇다면 대형 모델의 외삽 기능을 정확히 향상시킬 수 있는 것은 무엇이며, 어떻게 이를 수행합니까?

대형 모델 외삽 기능을 향상시키는 "메커니즘"

대형 모델 외삽 기능을 향상시키는 이 방법은 Transformer 아키텍처의 Positional Coding이라는 모듈과 관련이 있습니다.

사실 단순 주의 메커니즘(Attention) 모듈은 서로 다른 위치에 있는 토큰을 구별할 수 없습니다. 예를 들어 "나는 사과를 먹습니다"와 "사과는 나를 먹습니다"는 눈에 차이가 없습니다.

따라서 어순 정보를 이해하고 문장의 의미를 진정으로 이해할 수 있도록 위치 인코딩을 추가해야 합니다.

현재 Transformer 위치 인코딩 방법에는 절대 위치 인코딩(위치 정보를 입력에 통합), 상대 위치 인코딩(위치 정보를 주의 점수 계산에 기록) 및 회전 위치 인코딩이 있습니다. 그중 가장 인기 있는 것은 회전 위치 인코딩(Rotational Position Encoding), 즉 RoPE입니다.

RoPE는 절대 위치 인코딩을 통해 상대 위치 인코딩 효과를 달성하지만 상대 위치 인코딩에 비해 대형 모델의 추정 가능성을 더 잘 향상시킬 수 있습니다.

RoPE 위치 인코딩을 사용하여 대형 모델의 외삽 기능을 더욱 자극하는 방법도 최근 많은 연구의 새로운 방향이 되었습니다.

이러한 연구는 주로 주의 제한회전 각도 조정이라는 두 가지 주요 학파로 나뉩니다.

주의 제한에 관한 대표적인 연구로는 ALiBi, xPos, BCA 등이 있습니다. 최근 MIT가 제안한 StreamingLLM은 대형 모델이 무한한 입력 길이를 달성할 수 있도록 허용합니다(그러나 컨텍스트 창 길이를 늘리지는 않음). 이는 이 방향의 연구 유형에 속합니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

Δ이미지 출처 작성자

는 선형 보간, Giraffe, Code LLaMA, LLaMA2 Long 등의 일반적인 대표자가 모두 이러한 유형의 연구에 속합니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

△원본 작성자

Meta의 최근 인기 있는 LLaMA2 Long 연구를 예로 들어, 하이퍼파라미터를 수정하여 대형 모델의 컨텍스트 길이를 32,000개 토큰으로 성공적으로 확장한 RoPE ABF라는 방법을 제안했습니다.

이 하이퍼파라미터는 바로 Code LLaMA 및 LLaMA2 Long과 같은 연구에서 발견된 "스위치" -

회전 각도의 기본 (기본)입니다.

대형 모델의 추정 성능이 향상되도록 미세 조정하기만 하면 됩니다.

그러나 Code LLaMA이든 LLaMA2 Long이든 특정 기반과 지속적인 훈련 기간에 대해서만 미세 조정되어 외삽 기능을 향상시킵니다.

RoPE 위치 인코딩을 사용하는 모든 대형 모델이 외삽 성능을 안정적으로 향상시킬 수 있는 규칙을 찾을 수 있나요?

이 규칙을 익히면 맥락은 쉽습니다. 100w+

푸단대학교와 상하이 AI 연구소의 연구원들이 이 문제에 대해 실험을 진행했습니다.

그들은 먼저 RoPE 외삽 기능에 영향을 미치는 여러 매개변수를 분석하고 Critical Dimension(Critical Dimension)이라는 개념을 제안했습니다. 그런 다음 이 개념을 기반으로 RoPE 기반 외삽의 확장 법칙 세트를 요약했습니다.

을 적용하면 RoPE 위치 인코딩을 기반으로 하는 모든 대형 모델이 추정 기능을 향상시킬 수 있습니다. 먼저 임계 차원이 무엇인지 살펴보겠습니다.

정의에서 사전 학습 텍스트 길이 Ttrain, self-attention 머리 크기 수 d 및 기타 매개변수와 관련이 있으며 구체적인 계산 방법은 다음과 같습니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

그 중 하이퍼파라미터와 회전각도 기준의 "초기값"은 10000입니다.

저자는 베이스를 확대하거나 축소하면 결국 RoPE 기반 대형 모델의 외삽 능력이 향상될 수 있음을 발견했습니다. 반면 회전 각도 베이스가 10000인 경우 대형 모델의 외삽 능력은 향상됩니다. 가장 나쁜.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

본 논문에서는 회전 각도 기준이 작을수록 위치 정보를 더 많은 차원에서 인식할 수 있고, 회전 각도 기준이 클수록 더 긴 위치 정보를 표현할 수 있다고 믿습니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

이 경우, 길이가 다른 지속적인 학습 말뭉치에 직면할 때 대형 모델의 외삽 능력을 최대화하려면 회전 각도 기반을 얼마나 줄이고 확대해야 할까요?

이 논문은 임계 차원, 지속적인 학습 텍스트 길이 및 대형 모델의 사전 학습 텍스트 길이와 같은 매개변수와 관련된 확장된 RoPE 외삽을 위한 스케일링 규칙을 제공합니다.

LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.

이 규칙에 따라 다양한 사전 학습 훈련을 수행하고 텍스트 길이를 계속 훈련하여 대형 모델의 외삽 성능을 직접 계산할 수 있습니다. 즉, 대형 모델이 지원하는 컨텍스트 길이를 예측합니다.

반대로, 이 규칙을 사용하면 회전 각도 기준을 가장 잘 조정하는 방법을 빠르게 추론할 수 있어 대형 모델의 외삽 성능이 향상됩니다.

저자는 이 일련의 작업을 테스트한 결과 실험적으로 현재 100,000, 500,000 또는 심지어 100만 개의 토큰 길이를 입력하면 추가적인 주의 제한 없이 외삽을 달성할 수 있음을 확인했습니다.

동시에 Code LLaMA 및 LLaMA2 Long을 포함한 대형 모델의 외삽 기능을 향상시키는 작업을 통해 이 규칙이 실제로 합리적이고 효과적이라는 것이 입증되었습니다.

이렇게 하면 이 규칙에 따라 "매개변수 조정"만 하면 RoPE 기반의 대형 모델의 컨텍스트 창 길이를 쉽게 확장하고 외삽 기능을 향상시킬 수 있습니다.

논문의 제1저자인 Liu Xiaoran은 현재 이 연구가 지속적인 학습 코퍼스를 개선하여 다운스트림 작업 효과를 개선하고 있다고 말했습니다. 완료되면 코드와 모델이 오픈 소스로 제공될 예정입니다~

논문 주소:

https://arxiv.org/abs/2310.05209

Github 저장소:

https://github.com/OpenLMLab/scaling-rope

종이 분석 블로그:

https://zhuanlan.zhihu.com/p/660073229

위 내용은 LLaMA2 컨텍스트 길이는 1백만 개의 토큰으로 급증하며 단 하나의 하이퍼매개변수만 조정하면 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

ddrescue를 사용하여 Linux에서 데이터 복구 ddrescue를 사용하여 Linux에서 데이터 복구 Mar 20, 2024 pm 01:37 PM

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! 오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

여러 조건으로 Excel 필터 기능을 사용하는 방법 여러 조건으로 Excel 필터 기능을 사용하는 방법 Feb 26, 2024 am 10:19 AM

Excel에서 여러 기준으로 필터링을 사용하는 방법을 알아야 하는 경우 다음 자습서에서는 데이터를 효과적으로 필터링하고 정렬할 수 있는 단계를 안내합니다. Excel의 필터링 기능은 매우 강력하며 많은 양의 데이터에서 필요한 정보를 추출하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 설정한 조건에 따라 데이터를 필터링하고 조건에 맞는 부분만 표시하여 데이터 관리를 더욱 효율적으로 할 수 있습니다. 필터 기능을 사용하면 대상 데이터를 빠르게 찾을 수 있어 데이터 검색 및 정리에 드는 시간을 절약할 수 있습니다. 이 기능은 단순한 데이터 목록에만 적용할 수 있는 것이 아니라, 여러 조건에 따라 필터링하여 필요한 정보를 보다 정확하게 찾을 수 있도록 도와줍니다. 전반적으로 Excel의 필터링 기능은 매우 실용적입니다.

Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Apr 01, 2024 pm 07:46 PM

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. 미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 Mar 11, 2024 pm 12:10 PM

이번 주, 오픈AI(OpenAI), 마이크로소프트(Microsoft), 베조스(Bezos), 엔비디아(Nvidia)가 투자한 로봇 회사인 FigureAI는 약 7억 달러의 자금 조달을 받았으며 내년 내에 독립적으로 걸을 수 있는 휴머노이드 로봇을 개발할 계획이라고 발표했습니다. 그리고 Tesla의 Optimus Prime은 계속해서 좋은 소식을 받았습니다. 올해가 휴머노이드 로봇이 폭발하는 해가 될 것이라는 데는 누구도 의심하지 않는다. 캐나다에 본사를 둔 로봇 회사인 SanctuaryAI는 최근 새로운 휴머노이드 로봇인 Phoenix를 출시했습니다. 관계자들은 이 로봇이 인간과 같은 속도로 자율적으로 많은 작업을 완료할 수 있다고 주장한다. 인간의 속도로 자동으로 작업을 완료할 수 있는 세계 최초의 로봇인 Pheonix는 각 물체를 부드럽게 잡고 움직이며 우아하게 왼쪽과 오른쪽에 배치할 수 있습니다. 자동으로 물체를 식별할 수 있습니다.

See all articles