500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.-일체 포함-php.cn

Infinite Memory Transformer

집

기술 주변기기

일체 포함

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

王林

Jun 10, 2023 am 10:42 AM

ai 모델

현재 주류 대규모 언어 모델의 주요 문제점은 메모리 부족입니다. 예를 들어 ChatGPT는 4096개의 토큰(약 3000단어)만 입력할 수 있으며, 채팅을 하다가 이전에 말한 내용을 잊어버리는 경우가 많습니다. 의 짧은 이야기를 읽어보세요.

짧은 입력 창은 언어 모델의 적용 시나리오도 제한합니다. 예를 들어 과학 논문(약 10,000단어)을 요약할 때 기사를 수동으로 분할한 다음 모델에 여러 장으로 입력해야 합니다. 관련 정보가 손실됩니다.

GPT-4는 최대 32,000개의 토큰을 지원할 수 있고 업그레이드된 Claude는 최대 100,000개의 토큰을 지원할 수 있지만 두뇌 용량 부족 문제를 완화만 할 수 있습니다.

최근 기업가 팀 Magic은 LTM-1 모델을 곧 출시할 것이라고 발표했습니다. 이 모델은 최대 5백만 개의 토큰을 지원합니다. 이는 약 500,000줄의 코드 또는 5000개의 파일(50배)입니다. Claude보다 높습니다. 기본적으로 대부분의 저장 요구 사항을 충족할 수 있으므로 수량과 품질이 실제로 달라집니다!

LTM-1의 주요 응용 시나리오는 코드 완성입니다. 예를 들어 더 길고 복잡한 코드 제안을 생성할 수 있습니다.

여러 파일에서 정보를 재사용하고 통합할 수도 있습니다.

안타까운 소식은 LTM-1의 개발사인 매직이 구체적인 기술적 원리를 공개하지 않고, 완전히 새로운 방식인 장기 기억 네트워크(LTM Net)를 설계했다고만 밝혔습니다.

하지만 좋은 소식도 있습니다. 2021년 9월 DeepMind와 다른 기관의 연구자들은 장기 기억(LTM) 메커니즘을 포함하는 -former라는 모델을 제안한 적이 있습니다. 무한한 메모리를 제공하지만 둘이 동일한 기술인지, 아니면 개선된 버전인지는 확실하지 않습니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

문서 링크: https://arxiv.org/pdf/2109.00301.pdf

개발팀에서는 LTM Nets가 GPT보다 더 많은 컨텍스트를 볼 수 있지만 LTM의 수는 다음과 같습니다. -1 모델의 매개변수는 현재 sota 모델보다 훨씬 작으므로 지능 수준도 낮습니다. 그러나 모델 크기를 계속 늘리면 LTM Nets의 성능이 향상됩니다.

현재 LTM-1은 알파 테스트 애플리케이션을 오픈했습니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

신청 링크: https://www.php.cn/link/bbfb937a66597d9646ad992009aee405

LTM -1 개발자 Magic은 2022년에 설립되었으며 주로 유사한 GitHub Copilot의 개발을 하고 있습니다. 제품은 소프트웨어 엔지니어가 코드를 작성, 검토, 디버그 및 수정하는 데 도움을 줄 수 있습니다. 목표는 프로그래머를 위한 AI 동료를 만드는 것입니다. 이 제품의 주요 경쟁 우위는 모델이 더 긴 코드를 읽을 수 있다는 것입니다.

Magic은 공익을 위해 노력하고 있으며 인간의 능력을 뛰어넘는 AGI 시스템을 구축하고 안전하게 배포하는 것을 사명으로 삼고 있으며 현재 직원 수는 10명에 불과한 스타트업 회사입니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

올해 2월 Magic은 Alphabet의 자회사인 CapitalG가 주도하는 시리즈 A 자금 조달에서 2,300만 달러를 받았습니다. Investors에는 현재 회사의 전 GitHub CEO이자 Copilot 공동 제작자인 Nat Friedman도 포함되어 있습니다. 대통령의 기금 금액은 2,800만 달러에 달했습니다.

Magic의 CEO이자 공동 창립자인 Eric Steinberger는 케임브리지 대학교에서 컴퓨터 과학 학사 학위를 취득했으며 FAIR에서 기계 학습 연구를 수행했습니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

Magic을 설립하기 전에 Steinberger는 전 세계 어린이들이 기후 변화의 영향에 대해 배울 수 있도록 ClimateScience를 설립했습니다.

Infinite Memory Transformer

언어 모델의 핵심 구성 요소인 Transformer의 주의 메커니즘 설계로 인해 입력 시퀀스의 길이가 늘어날 때마다 시간 복잡도가 2차적으로 증가하게 됩니다.

알고리즘의 복잡성을 줄이기 위해 이미 희소 주의 등 주의 메커니즘의 일부 변형이 있지만 그 복잡성은 여전히 입력 길이와 관련되어 무한히 확장될 수 없습니다.

-former 장기 기억(LTM)의 Transformer 모델에서 입력 시퀀스를 무한대로 확장하는 핵심은 (기능 기반) 메모리 정보 단위의 수를 늘리는 지속적인 공간 주의 프레임워크입니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

프레임워크에서 입력 시퀀스는 N개의 방사형 기저 함수(RBF)의 선형 조합을 나타내는 "연속 신호"로 표현됩니다. 이러한 방식으로 -former의 주의 복잡도는 다음과 같습니다. 원래 Transformer의 주의 복잡도는 O(L×(L+L_LTM))인 반면 O(L^2 + L × N)으로 감소합니다. 여기서 L과 L_LTM은 Transformer 입력 크기 및 장기 메모리에 해당합니다. 길이는 각각.

이 표현 방법에는 두 가지 주요 이점이 있습니다.

1. 컨텍스트는 토큰 수보다 작은 기본 함수 N으로 표현될 수 있으므로 주의 계산 비용이 줄어듭니다. 고정될 수 있으므로 주의 메커니즘의 복잡성을 증가시키지 않고도 메모리에 무제한의 맥락을 표현할 수 있습니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다. 물론 세상에 공짜 점심은 없으며 가격은 해상도 감소입니다. 더 적은 수의 기본 함수를 사용하면 입력 시퀀스를 다음과 같이 표현할 때 정확도가 감소합니다. 계속되는 신호.

해상도 감소 문제를 완화하기 위해 연구원들은 LTM 신호의 더 큰 공간이 더 자주 액세스되는 메모리 영역에 기인하는 "고정 메모리" 개념을 도입하여 LTM에서 "고정 메모리"를 생성했습니다. "영속성"이라는 개념은 모델이 관련 정보를 잃지 않고 장기적인 맥락을 더 잘 포착할 수 있게 하며, 또한 뇌의 장기적인 잠재력과 가소성에서 영감을 얻었습니다.

실험부

-former가 긴 맥락을 모델링할 수 있는지 검증하기 위해 연구진은 먼저 합성 작업, 즉 긴 순서로 빈도별로 토큰을 정렬하는 실험을 수행했습니다. 사전 훈련된 언어 모델을 미세 조정하여 언어 모델링 및 문서 기반 대화 생성을 사용합니다.

Sorting

입력에는 확률 분포(시스템 알 수 없음)에 따라 샘플링된 토큰 시퀀스가 포함되어 있으며, 목표는 시퀀스에서 빈도가 감소하는 순서로 토큰을 생성하는 것입니다

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다. 메모리가 효율적으로 사용되는지, Transformer가 단순히 가장 최근의 태그를 모델링하여 정렬하는지를 장기적으로 연구하기 위해 연구진은 시간에 따라 변화하는 태그 확률 분포를 설계했습니다.

어휘에는 20개의 토큰이 있으며, 비교를 위한 기본 모델로 Transformer-XL과 압축 변환기를 각각 4,000, 8,000, 16,000 길이의 시퀀스로 실험을 수행했습니다.

실험 결과를 보면 짧은 시퀀스 길이(4,000)의 경우 Transformer-XL이 다른 모델보다 약간 더 높은 정확도를 달성하지만 시퀀스 길이가 늘어나면 정확도도 급격하게 떨어지는 것을 알 수 있습니다. , 이러한 감소는 명확하지 않으며, 이는 긴 시퀀스를 모델링할 때 더 많은 이점이 있음을 나타냅니다.

언어 모델링

사전 훈련된 언어 모델을 확장하는 데 장기 기억이 사용될 수 있는지 이해하기 위해 연구원들은 Wikitext103 및 PG-19 Fine- 약 2억 개의 토큰을 포함하여 조정되었습니다.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

실험 결과를 보면 -former는 Wikitext-103과 PG19의 복잡성을 줄일 수 있으며, -former는 Wikipedia 기사보다 책에 더 의존하기 때문에 PG19 데이터 세트에서 더 큰 개선을 얻을 수 있음을 알 수 있습니다. 장기 기억.

문서 기반 대화

문서 기반 대화 생성에서 모델은 대화 기록 외에도 대화 주제에 대한 문서도 얻을 수 있습니다.

CMU Document Grounded Conversation 데이터세트(CMU-DoG)에서 대화는 영화에 관한 것이며, 대화에 여러 가지 연속 담화가 포함되어 있다는 점을 고려하여 영화 요약이 보조 문서로 제공됩니다. 여러 부분으로 나누어져 있습니다.

장기 기억의 유용성을 평가하기 위해 연구원들은 대화가 시작되기 전에만 모델에게 파일에 대한 액세스 권한을 부여하여 작업을 더욱 어렵게 만들었습니다.

GPT-2 small을 미세 조정한 후 모델이 전체 문서를 메모리에 유지할 수 있도록 GPT-2는 N=512 기반 함수의 연속 LTM(무한대 이전)을 사용하여 확장됩니다.

모델 효과를 평가하려면 Perplexity, F1 점수, Rouge-1 및 Rouge-L, Meteor 지표를 사용하세요.

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

결과에 따르면 -former와 Compressive Transformer가 더 나은 코퍼스를 생성할 수 있습니다. 두 가지의 Perplexity는 기본적으로 동일하지만 다른 지표에서는 더 나은 점수를 얻습니다.

위 내용은 500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7492

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Oracle 데이터베이스 생성 방법 Oracle 데이터베이스를 만드는 방법 Apr 11, 2025 pm 02:36 PM

Oracle 데이터베이스를 만들려면 일반적인 방법은 DBCA 그래픽 도구를 사용하는 것입니다. 단계는 다음과 같습니다. 1. DBCA 도구를 사용하여 데이터베이스 이름을 지정하기 위해 DBNAME을 설정하십시오. 2. SySpassword 및 SystemPassword를 강력한 암호로 설정하십시오. 3. Al32UTF8로 문자 세트 및 NationalCharacterset을 세트; 4. 실제 요구에 따라 조정하도록 메모리 크기 및 테이블 스페이스 크기를 설정하십시오. 5. 로그 파일 경로를 지정하십시오. 고급 메소드는 SQL 명령을 사용하여 수동으로 생성되지만 더 복잡하고 오류가 발생하기 쉽습니다. 비밀번호 강도, 문자 세트 선택, 테이블 스페이스 크기 및 메모리에주의하십시오.

Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Apr 11, 2025 pm 02:33 PM

Oracle 데이터베이스를 만드는 것은 쉽지 않으므로 기본 메커니즘을 이해해야합니다. 1. 데이터베이스 및 Oracle DBMS의 개념을 이해해야합니다. 2. SID, CDB (컨테이너 데이터베이스), PDB (Pluggable Database)와 같은 핵심 개념을 마스터합니다. 3. SQL*Plus를 사용하여 CDB를 생성 한 다음 PDB를 만들려면 크기, 데이터 파일 수 및 경로와 같은 매개 변수를 지정해야합니다. 4. 고급 응용 프로그램은 문자 세트, 메모리 및 기타 매개 변수를 조정하고 성능 튜닝을 수행해야합니다. 5. 디스크 공간, 권한 및 매개 변수 설정에주의를 기울이고 데이터베이스 성능을 지속적으로 모니터링하고 최적화하십시오. 그것을 능숙하게 마스터 함으로써만 지속적인 연습이 필요합니다. Oracle 데이터베이스의 생성 및 관리를 진정으로 이해할 수 있습니다.

Oracle Database 문을 작성하는 방법 Apr 11, 2025 pm 02:42 PM

Oracle SQL 문의 핵심은 다양한 조항의 유연한 적용뿐만 아니라 선택, 삽입, 업데이트 및 삭제입니다. 인덱스 최적화와 같은 진술의 실행 메커니즘을 이해하는 것이 중요합니다. 고급 사용에는 하위 쿼리, 연결 쿼리, 분석 기능 및 PL/SQL이 포함됩니다. 일반적인 오류에는 구문 오류, 성능 문제 및 데이터 일관성 문제가 포함됩니다. 성능 최적화 모범 사례에는 적절한 인덱스를 사용하고 선택 *을 피하고 조항을 최적화하고 바운드 변수를 사용하는 것이 포함됩니다. Oracle SQL을 마스터하려면 코드 쓰기, 디버깅, 사고 및 기본 메커니즘 이해를 포함한 연습이 필요합니다.

MySQL 데이터 테이블 필드 작동 안내서를 추가, 수정 및 삭제하는 방법 Apr 11, 2025 pm 05:42 PM

MySQL의 현장 작동 안내서 : 필드를 추가, 수정 및 삭제합니다. 필드 추가 : Alter Table_Name ADD CORMEN_NAME DATA _TYPE [NOT NOT NORN NOT] [DEFAULT DEFAULT_VALUE] [기본 키] [기본 키] [AUTO_INCREMENT] 수정 필드 : ALTER TABLE_NAME COLUME_NAME DATY_TYPE [NOT NOT NOT NOT NOT DEFAULT_VALUE] [기본 키]

Oracle 데이터베이스 테이블의 무결성 제약 조건은 무엇입니까? Apr 11, 2025 pm 03:42 PM

Oracle 데이터베이스의 무결성 제약 조건은 다음을 포함하여 데이터 정확도를 보장 할 수 있습니다. NULL : NULL 값은 금지됩니다. 고유 : 독창성을 보장하고 단일 널 값을 허용합니다. 기본 키 : 기본 키 제약 조건, 고유 한 강화 및 널 값을 금지합니다. 외국 키 : 테이블 간의 관계 유지, 외국 키는 기본 테이블 기본 키를 나타냅니다. 점검 : 조건에 따라 열 값을 제한합니다.

MySQL 데이터베이스의 중첩 쿼리 인스턴스에 대한 자세한 설명 Apr 11, 2025 pm 05:48 PM

중첩 쿼리는 한 쿼리에 다른 쿼리를 포함시키는 방법입니다. 주로 복잡한 조건을 충족하고 여러 테이블을 연관시키고 요약 값 또는 통계 정보를 계산하는 데이터를 검색하는 데 사용됩니다. 예로는 평균 임금 이상의 직원 찾기, 특정 범주에 대한 주문 찾기 및 각 제품의 총 주문량 계산이 있습니다. 중첩 쿼리를 작성할 때는 다음을 따라야합니다. 하위 쿼리를 작성하고 결과를 외부 쿼리 (별명 또는 클로시로 참조)에 작성하고 쿼리 성능 (색인 사용)을 최적화하십시오.

오라클은 무엇을합니까? Apr 11, 2025 pm 06:06 PM

Oracle은 세계 최대의 데이터베이스 관리 시스템 (DBMS) 소프트웨어 회사입니다. 주요 제품에는 다음과 같은 기능이 포함됩니다. 관계형 데이터베이스 관리 시스템 (Oracle Database) 개발 도구 (Oracle Apex, Oracle Visual Builder) Middleware (Oracle Weblogic Server, Oracle SOA Suite) 클라우드 서비스 (Oracle Cloud Infrastructure) 분석 및 비즈니스 인텔리전스 (Oracle Analytics Cloud, Oracle Essbase) 블록카 인 (Oracle Blockchain PLA

데비안 아파치 로그 형식을 구성하는 방법 Apr 12, 2025 pm 11:30 PM

이 기사에서는 데비안 시스템에서 Apache의 로그 형식을 사용자 정의하는 방법에 대해 설명합니다. 다음 단계는 구성 프로세스를 안내합니다. 1 단계 : Apache 구성 파일 액세스 Debian 시스템의 기본 Apache 구성 파일은 일반적으로 /etc/apache2/apache2.conf 또는 /etc/apache2/httpd.conf에 있습니다. 다음 명령을 사용하여 루트 권한으로 구성 파일을 엽니 다.

See all articles

500만 토큰 몬스터, 『해리포터』를 한 번에 읽어보세요! ChatGPT보다 1000배 이상 더 깁니다.

Infinite Memory Transformer

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제