기술 주변기기 일체 포함 무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.

무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.

Apr 13, 2024 am 08:00 AM
Google 산업 메모리 사용량

Gemini 1.5 Pro가 이 기술을 사용하는지 모르겠습니다.

Google은 또 다른 큰 행보를 보이며 차세대 Transformer 모델인 Infini-Transformer를 출시했습니다.

Infini-Transformer는 메모리 및 계산 요구 사항을 늘리지 않고도 Transformer 기반 LLM(대형 언어 모델)을 무한히 긴 입력으로 확장할 수 있는 효율적인 방법을 도입합니다. 연구원들은 이 기술을 사용하여 1B 모델의 컨텍스트 길이를 8B 모델에 적용하여 100만 개로 성공적으로 늘렸고, 이 모델은 500K 책 요약 작업을 처리할 수 있습니다.

Transformer 아키텍처는 2017년 획기적인 연구 논문 "Attention is All You Need"가 출판된 이후 생성 인공 지능 분야를 지배해 왔습니다. Google의 Transformer 최적화 설계는 최근 비교적 자주 등장했으며, 며칠 전 Transformer 아키텍처를 업데이트하고 이전 Transformer 컴퓨팅 모델을 변경한 MoD(Mixture-of-Depths)를 출시했습니다. 며칠 내에 Google은 이 새로운 연구를 발표했습니다.

AI 분야의 연구자들은 모두 기억의 중요성을 이해하고 있습니다. 기억은 지능의 초석이며 LLM에 효율적인 컴퓨팅을 제공할 수 있습니다. 그러나 Transformer 및 Transformer 기반 LLM은 Attention 메커니즘, 즉 Transformer의 Attention 메커니즘의 고유한 특성으로 인해 메모리 사용량과 계산 시간 모두에서 2차 복잡도를 나타냅니다. 예를 들어 배치 크기가 512이고 컨텍스트 길이가 2048인 500B 모델의 경우 어텐션 키-값(KV) 상태의 메모리 공간은 3TB입니다. 그러나 실제로 표준 Transformer 아키텍처에서는 LLM을 더 긴 시퀀스(예: 100만 개의 토큰)로 확장해야 하는 경우가 있는데, 이는 막대한 메모리 오버헤드를 가져오고 컨텍스트 길이가 증가함에 따라 배포 비용도 증가합니다.

이를 바탕으로 Google은 Infini-attention이라는 새로운 주의 기술을 핵심 구성 요소로 하는 효과적인 접근 방식을 도입했습니다. 로컬 주의를 사용하여 오래된 조각을 버리고 새 조각을 위한 메모리 공간을 확보하는 기존 Transformer와는 다릅니다. Infini-attention은 사용된 오래된 조각을 압축 메모리에 저장할 수 있는 압축 메모리를 추가합니다. 출력 시 현재 컨텍스트 정보와 압축 메모리의 정보가 집계되므로 모델은 전체 컨텍스트 기록을 검색할 수 있습니다.

이 방법을 사용하면 Transformer LLM이 제한된 메모리로 무한히 긴 컨텍스트로 확장하고 스트리밍 방식으로 계산을 위해 매우 긴 입력을 처리할 수 있습니다.

실험에 따르면 이 방법은 메모리 매개변수를 100배 이상 줄이면서 긴 컨텍스트 언어 모델링 벤치마크의 기준을 능가하는 것으로 나타났습니다. 이 모델은 100K 시퀀스 길이로 학습할 때 더 나은 복잡성을 달성합니다. 또한 연구에서는 1B 모델이 5K 시퀀스 길이의 주요 인스턴스에서 미세 조정되어 1M 길이 문제를 해결했음을 발견했습니다. 마지막으로, 논문에서는 Infini-attention을 적용한 8B 모델이 지속적인 사전 학습 및 작업 미세 조정을 거쳐 500K 길이의 책 요약 작업에서 새로운 SOTA 결과를 달성했음을 보여줍니다.

이 기사의 기여는 다음과 같이 요약됩니다.

  • 장기 압축 메모리와 로컬 인과 주의를 효과적으로 사용하는 Infini-attention을 도입합니다. 장기 및 단기 컨텍스트 종속성을 모델링합니다.
  • Infini-attention은 표준 확장 내적 관심을 최소한으로 변경하며 플러그 앤 플레이 연속 사전 학습 및 장기 컨텍스트 자가 학습을 지원하도록 설계되었습니다. 적응
  • 이 방법을 사용하면 Transformer LLM이 스트림을 통해 매우 긴 입력을 처리하여 제한된 메모리와 컴퓨팅 리소스로 무한히 긴 컨텍스트로 확장할 수 있습니다. H 논문 링크: https://arxiv.org/pdf/2404.07143.pdf
논문 제목: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-ATENTINTION무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
  • 방법 소개

Infini-attention을 사용하면 Transformer LLM이 제한된 메모리 공간과 계산으로 무한히 긴 입력을 효율적으로 처리할 수 있습니다. 아래 그림 1에서 볼 수 있듯이 Infini-attention은 압축된 메모리를 일반 Attention 메커니즘에 통합하고 단일 Transformer 블록에 Masked Local Attention 및 장기 선형 Attention 메커니즘을 구축합니다.
Transformer 주의 계층에 대한 이 미묘하지만 중요한 수정은 지속적인 사전 훈련과 미세 조정을 통해 기존 LLM의 컨텍스트 창을 무한한 길이로 확장할 수 있습니다.

Infini-attention은 장기 메모리 통합 및 검색을 위해 표준 어텐션 계산의 모든 키, 값 및 쿼리 상태를 가져오고 대신 이전 KV 어텐션 상태를 압축 메모리에 저장합니다. 표준 어텐션 메커니즘처럼 폐기합니다.후속 시퀀스를 처리할 때 Infini-attention은 Attention 쿼리 상태를 사용하여 메모리에서 값을 검색합니다. 최종 컨텍스트 출력을 계산하기 위해 Infini-attention은 장기 메모리 검색 값과 로컬 어텐션 컨텍스트를 집계합니다.

아래 그림 2와 같이 연구팀은 Infini-attention을 기반으로 Infini-Transformer와 Transformer-XL을 비교했습니다. Transformer-XL과 유사하게 Infini-Transformer는 일련의 세그먼트에서 작동하고 각 세그먼트에서 표준 인과 내적 주의 컨텍스트를 계산합니다. 따라서 내적 주의 계산은 어떤 의미에서는 지역적입니다.
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
그러나 로컬 어텐션은 다음 세그먼트 처리 시 이전 세그먼트의 어텐션 상태를 폐기하지만, Infini-Transformer는 이전 KV 어텐션 상태를 재사용하여 압축 저장을 통해 전체 컨텍스트 히스토리를 유지합니다. 따라서 Infini-Transformer의 각 Attention 레이어는 전역 압축 상태와 로컬 세분화 상태를 갖습니다.

다중 헤드 어텐션(MHA)과 유사하게 내적 어텐션 외에도 Infini-attention은 각 어텐션 레이어에 대해 H개의 병렬 압축 메모리를 유지합니다(H는 어텐션 헤드의 수).
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
아래 표 1에는 모델 매개변수와 입력 세그먼트 길이를 기반으로 여러 모델에서 정의한 컨텍스트 메모리 공간과 유효 컨텍스트 길이가 나열되어 있습니다. Infini-Transformer는 제한된 메모리 공간으로 무한한 컨텍스트 창을 지원합니다.
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
Experiments

이 연구에서는 긴 입력 시퀀스가 ​​매우 긴 긴 컨텍스트 언어 모델링, 1M 길이의 키 컨텍스트 블록 검색 및 500K 길이의 책 요약 작업에 대한 Infini-Transformer 모델을 평가했습니다. 언어 모델링의 경우 연구원들은 모델을 처음부터 훈련하기로 결정했으며 핵심 및 책 요약 작업의 경우 연구원들은 LLM의 지속적인 사전 훈련을 사용하여 Infini-attention의 플러그 앤 플레이 장기 컨텍스트 적응성을 입증했습니다.

긴 컨텍스트 언어 모델링. 표 2 결과는 Infini-Transformer가 Transformer-XL 및 Memorizing Transformers 기준보다 성능이 뛰어나며 Memorizing Transformer 모델에 비해 114배 더 적은 매개변수를 저장한다는 것을 보여줍니다.
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
핵심 임무. 표 3은 5K 길이 입력으로 미세 조정되어 최대 1M 컨텍스트 길이까지 핵심 작업을 해결하는 Infini-Transformer를 보여줍니다. 실험에서 입력 토큰은 32K에서 1M 범위였습니다. 각 테스트 하위 집합에 대해 연구원은 키가 입력 시퀀스의 시작, 중간 또는 끝 근처에 위치하도록 제어했습니다. 실험에서는 제로샷 정확도와 미세 조정 정확도가 보고되었습니다. 5K 길이 입력에 대해 400단계의 미세 조정을 거친 후 Infini-Transformer는 최대 1M 컨텍스트 길이의 작업을 해결합니다.
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
요약 작업. 표 4는 요약 작업을 위해 특별히 제작된 인코더-디코더 모델과 Infini-Transformer를 비교합니다. 결과는 Infini-Transformer가 이전 최고 결과를 뛰어넘고 책 전체 텍스트를 처리하여 BookSum에서 새로운 SOTA를 달성한 것으로 나타났습니다.
무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.
연구원들은 또한 그림 4에 BookSum 데이터 검증 분할의 전체 Rouge 점수를 표시했습니다. 폴리라인 추세는 Infini-Transformer가 입력 길이가 증가함에 따라 요약 성능 메트릭을 향상시키는 것을 보여줍니다.

무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.

위 내용은 무한 길이로 직접 확장되는 Google Infini-Transformer는 컨텍스트 길이 논쟁을 종식시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

현지에서 Deepseek을 미세 조정하는 방법 현지에서 Deepseek을 미세 조정하는 방법 Feb 19, 2025 pm 05:21 PM

Deepseek 클래스 모델의 로컬 미세 조정은 컴퓨팅 리소스와 전문 지식이 충분하지 않아야합니다. 이러한 과제를 해결하기 위해 다음과 같은 전략을 채택 할 수 있습니다. 모델 양자화 : 모델 매개 변수를 저 반영 정수로 변환하여 메모리 발자국을 줄입니다. 더 작은 모델 사용 : 더 쉬운 로컬 미세 조정을 위해 작은 매개 변수가있는 사전 취사 모델을 선택하십시오. 데이터 선택 및 전처리 : 고품질 데이터를 선택하고 모델 효과에 영향을 미치는 데이터 품질이 좋지 않도록 적절한 전처리를 수행하십시오. 배치 교육 : 대규모 데이터 세트의 경우 메모리 오버플로를 피하기 위해 훈련을 위해 배치로 데이터를로드하십시오. GPU 로의 가속도 : 독립 그래픽 카드를 사용하여 교육 프로세스를 가속화하고 교육 시간을 단축하십시오.

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Gate.io Exchange 공식 등록 포털 Gate.io Exchange 공식 등록 포털 Feb 20, 2025 pm 04:27 PM

Gate.io는 광범위한 암호화 자산 및 거래 쌍을 제공하는 주요 암호 화폐 거래소입니다. Gate.io 등록은 공식 웹 사이트를 방문하거나 앱을 다운로드하면 "등록"을 클릭하고 등록 양식을 작성하고 2FA (Factor Verification)를 설정하면 가능합니다. 등록을 완료하십시오. Gate.io를 사용하면 사용자는 안전하고 편리한 암호 화폐 거래 경험을 즐길 수 있습니다.

2025 년 Bitget의 최신 다운로드 주소 : 공식 앱을 얻는 단계 2025 년 Bitget의 최신 다운로드 주소 : 공식 앱을 얻는 단계 Feb 25, 2025 pm 02:54 PM

이 안내서는 Android 및 iOS 시스템에 적합한 공식 Bitget Exchange 앱에 대한 자세한 다운로드 및 설치 단계를 제공합니다. 이 안내서는 공식 웹 사이트, App Store 및 Google Play를 포함한 여러 권위있는 소스의 정보를 통합하고 다운로드 및 계정 관리 중 고려 사항을 강조합니다. 사용자는 App Store, 공식 웹 사이트 APK 다운로드 및 공식 웹 사이트 Jump, 완전한 등록, 신원 확인 및 보안 설정을 포함한 공식 채널에서 앱을 다운로드 할 수 있습니다. 또한 가이드는 자주 묻는 질문과 다음과 같은 고려 사항을 다룹니다.

See all articles