4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.-일체 포함-php.cn

한 창으로 부족하면 몇 개 더 열어보세요

저자 소개

집

기술 주변기기

일체 포함

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

王林

Oct 24, 2023 pm 08:13 PM

ai 기차

창 길이가 4k에 불과한 대형 모델이라도 여전히 많은 텍스트 섹션을 읽을 수 있습니다!

프린스턴의 한 중국인 박사과정 학생이 최근 성취한 성과는 대형 모델의 창 길이 제한을 성공적으로 "돌파"한 것입니다.

다양한 질문에 답할 수 있을 뿐만 아니라, 전체 구현 과정을 추가 교육 없이도 프롬프트로 완전히 완료할 수 있습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

연구팀은 모델 자체의 창 길이 제한을 돌파할 수 있는 MemWalker라는 트리 메모리 전략을 만들었습니다.

테스트 중에 모델이 읽은 가장 긴 텍스트에는 12,000개 이상의 토큰이 포함되어 있으며 LongChat에 비해 결과가 크게 향상되었습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

유사한 TreeIndex에 비해 MemWalker는 일반화를 하는 대신 모든 질문에 대해 추론하고 답변할 수 있습니다.

MemWalker는 "분할과 정복"이라는 아이디어를 사용하여 개발되었습니다. 일부 네티즌은 다음과 같이 말했습니다.

대형 모델의 사고 과정을 인간과 비슷하게 만들 때마다 성능이 더 좋아질 것입니다

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

그래서 , 트리 메모리 전략은 정확히 무엇이며 제한된 창 길이로 긴 텍스트를 읽는 방법은 무엇입니까?

한 창으로 부족하면 몇 개 더 열어보세요

모델에서 MemWalker는 Stable Beluga 2를 기본 모델로 사용하고 있는데, 이는 Llama 2-70B가 명령 튜닝 후 얻은 것입니다.

이 모델을 선택하기 전에 개발자들은 원래 Llama 2와 성능을 비교하고 최종적으로 결정했습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

MemWalker라는 이름처럼 작업 과정은 마치 기억의 흐름을 걷는 것과 같습니다.

구체적으로는 크게 메모리 트리 구축과 탐색 검색의 두 단계로 나뉩니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

메모리 트리를 구축할 때 긴 텍스트는 여러 개의 작은 세그먼트(세그1-6)으로 나뉘고, 큰 모델은 각 세그먼트를 별도로 요약하여 "리프 노드"을 얻습니다. (리프 노드, summ1-6).

세그먼트를 분할할 때 각 세그먼트의 길이가 길수록 레벨이 적어서 후속 검색에 유리하지만, 너무 길면 정확도가 떨어지므로 길이를 결정할 때 종합적인 고려가 필요합니다. 각 세그먼트의.

저자는 각 문단의 적정 길이가 500~2000개 토큰이고, 실험에 사용된 토큰은 1000개라고 생각합니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

그런 다음 모델은 이러한 리프 노드의 내용을 다시 재귀적으로 요약하여 "비리프 노드"(비리프 노드, summ7-8)을 형성합니다.

둘 사이의 또 다른 차이점은 리프 노드에는 원래 정보가 포함되는 반면, 리프가 아닌 노드에는 로 요약된 보조 정보만 포함된다는 것입니다.

기능적으로 리프 노드가 아닌 노드는 답변이 있는 리프 노드를 탐색하고 찾는 데 사용되는 반면, 리프 노드는 답변에 대해 추론하는 데 사용됩니다.

비리프 노드는 여러 수준을 가질 수 있으며 "루트 노드"를 얻어 완전한 트리 구조를 형성할 때까지 모델이 점진적으로 요약됩니다.

기억 트리가 구축된 후 탐색 검색 단계에 들어가 답변을 생성할 수 있습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이 과정에서 모델은 루트 노드에서 시작하여 1차 하위 노드의 내용을 하나씩 읽은 후 이 노드에 들어갈지 돌아올지 추론합니다.

이 노드에 들어가기로 결정한 후 리프 노드를 읽을 때까지 프로세스를 다시 반복하십시오. 리프 노드의 내용이 적합하면 답변이 생성되고, 그렇지 않으면 반환됩니다.

답의 완전성을 보장하기 위해 이 프로세스의 종료 조건은 적합한 리프 노드를 찾는 것이 아니라 모델이 완전한 답을 얻었거나 최대 단계 수에 도달했다고 믿는 것입니다.

탐색 프로세스 중에 모델이 잘못된 경로를 입력했음을 발견하면 뒤로 탐색할 수도 있습니다.

또한 MemWalker는 정확성을 높이기 위해 작업 메모리 메커니즘을 도입했습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이 메커니즘은 방문한 노드의 콘텐츠를 현재 콘텐츠의 컨텍스트에 추가합니다.

모델이 새 노드에 진입하면 현재 노드 콘텐츠가 메모리에 추가됩니다.

이 메커니즘을 통해 모델은 중요한 정보의 손실을 방지하기 위해 모든 단계에서 방문한 노드의 콘텐츠를 활용할 수 있습니다.

실험 결과에 따르면 작업 기억 메커니즘이 MemWalker의 정확도를 약 10% 증가시킬 수 있는 것으로 나타났습니다.

또한 위에서 언급한 프로세스는 프롬프트에 의존해야만 완료할 수 있으며 추가 교육이 필요하지 않습니다.

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

이론적으로 MemWalker는 컴퓨팅 성능이 충분하다면 무한히 긴 텍스트를 읽을 수 있습니다.

그러나 메모리 트리 구성의 시간 및 공간 복잡성은 텍스트 길이가 늘어남에 따라 기하급수적으로 증가합니다.

저자 소개

논문의 첫 번째 저자는 프린스턴 대학 NLP 연구소의 중국 박사 과정 학생인 Howard Chen입니다.

Tsinghua Yao Class 동문 Chen Danqi는 Howard의 멘토이며, 올해 ACL에 대한 그녀의 학업 보고서도 검색과 관련이 있습니다.

이 결과는 Howard가 Meta에서 인턴십을 하는 동안 완성한 것입니다. Meta AI Laboratory의 학자 세 명인 Ramakanth Pasunuru, Jason Weston 및 Asli Celikyilmaz도 이 프로젝트에 참여했습니다.

논문 주소: https://arxiv.org/abs/2310.05029

위 내용은 4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7526

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 아파치 로그 레벨을 설정하는 방법 Apr 13, 2025 am 08:33 AM

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

See all articles

4k 창 길이로 긴 텍스트를 읽을 수 있습니다. Chen Danqi와 그의 제자들은 Meta와 협력하여 대형 모델의 메모리를 향상시키는 새로운 방법을 출시했습니다.

한 창으로 부족하면 몇 개 더 열어보세요

저자 소개

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제