기술 주변기기 일체 포함 학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.

Jul 16, 2024 am 11:57 AM
프로젝트 鄂维南 Memory3

2.4B 메모리3는 대형 LLM 및 RAG 모델보다 더 나은 성능을 제공합니다.

최근에는 LLM(대형 언어 모델)이 뛰어난 성능으로 전례 없는 주목을 받았습니다. 그러나 LLM은 훈련하고 추론하는 데 비용이 많이 들고, 사람들은 다양한 최적화 방법을 통해 비용을 줄이려고 노력해 왔습니다.

이 기사에서 북경대학교 상하이 알고리즘 혁신 연구소 및 기타 기관의 연구원들은 인간 두뇌의 메모리 계층 구조에서 영감을 얻었습니다. 그들은 LLM에 명시적 메모리(모델 매개변수보다 저렴한 메모리 형식)를 장착했습니다. RAG). 개념적으로 LLM은 대부분의 지식이 명시적 메모리로 외부화되므로 더 작은 매개변수 크기, 교육 비용 및 추론 비용을 누릴 수 있습니다. T 논문 주소: https: //arxiv.org/pdf/2407.01178
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
논문 제목: Memory
    3
  • : Language Modeling with Explicit Memory
  • 예비 개념 증명 증명으로 연구진은 2.4B LLM은 더 큰 LLM 및 RAG 모델보다 더 나은 성능을 달성하고 RAG보다 더 높은 디코딩 속도를 달성했습니다. LLM에서 명시적 메모리는 암시적 메모리(모델 매개변수)와 작업 메모리(컨텍스트 키 값)에 이어 세 번째 형태의 메모리이기 때문에 이 모델의 이름은 Memory
    3
  • 입니다.

구체적으로 본 논문에서는 쓰기 비용이 상대적으로 저렴하고 읽기 비용이 상대적으로 낮은 것이 특징인 새로운 메모리 형식인 명시적 메모리를 소개합니다. 그림 1에서 볼 수 있듯이 모델은 먼저 지식 베이스(또는 텍스트 데이터 세트)를 희소 어텐션 키-값으로 구현된 명시적 메모리로 변환한 다음 추론 중에 이러한 메모리를 호출하고 이를 self-attention 레이어 중간에 통합합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.새로운 메모리 형식은 새로운 메모리 계층을 정의합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.또한 이 기사에서는 지식 외부화를 지원하는 메모리 회로 이론을 소개하고 저장을 다루기 쉬운 메커니즘과 2단계 메모리 희소성을 제안합니다. 기억 형성을 촉진하기 위한 사전 훈련 프로토콜.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.요약:

Memory
3
추론 프로세스 중에 명시적 메모리를 활용하여 모델 매개변수에 대한 특정 지식을 기억하는 부담을 줄입니다. 희소 메모리 형식이 실제 저장 크기를 유지하는 지식 기반
  • 연구원들은 2.4B 비임베디드 매개변수를 사용하여 Memory
    3 모델을 처음부터 훈련했으며 그 성능은 대규모 SOTA 모델의 성능을 초과했습니다. 또한 RAG보다 더 나은 성능과 더 빠른 추론을 제공합니다.
  • 또한 메모리
    3
    는 사실성을 향상하고 환각을 완화하며 전문적인 작업에 빠르게 적응할 수 있게 해줍니다.
  • 방법 소개
기억 회로 이론은 어떤 지식이 명시적 기억으로 저장될 수 있는지, 어떤 모델 아키텍처가 명시적 기억을 읽고 쓰는 데 적합한지 결정하는 데 도움이 됩니다.

연구원들은 입출력 관계를 회로의 내부 메커니즘으로 간주하고, 지식을 입출력 관계와 그 회로로 정의합니다. 이러한 회로를 조작함으로써 기능을 그대로 유지하면서 LLM에서 많은 지식을 분리할 수 있습니다.

Memory
3
: 아키텍처 측면에서 이 문서의 목표는 Transformer LLM의 명시적 메모리 메커니즘을 설계하여 쓰기 비용과 읽기 비용이 상대적으로 낮도록 하는 것입니다. 또한 이 기사에서는 훈련 가능한 새로운 매개변수를 추가하지 않고 Transformer 아키텍처에 대한 수정을 가능한 가장 작은 범위로 제한하여 대부분의 기존 Transformer LLM을 미세 조정
3학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다. 모델 없이 메모리로 변환할 수 있기를 바랍니다. 간단한 설계 프로세스는 다음과 같습니다.

쓰기 비용: 추론 전에 LLM은 드라이브에 저장되는 명시적 메모리에 각 참조를 씁니다.기억은 self-attention 레이어의 주요 벡터에서 선택되므로 쓰기 과정에는 훈련이 필요하지 않습니다. 각 참조는 독립적으로 처리되므로 오랜 시간 동안 상황에 주의를 기울이는 데 따른 비용이 발생하지 않습니다.

읽기 비용: 추론 중에 명시적 메모리가 드라이브에서 검색되고 일반적인 컨텍스트 키 값과 함께 self-attention으로 읽혀집니다. 각 메모리는 소수의 어텐션 헤드에서 나온 매우 적은 수의 키 값으로 구성되어 추가 계산, GPU 스토리지, 드라이브 스토리지 및 로드 시간을 크게 줄입니다. 이를 통해 LLM은 디코딩 속도에 제한된 영향을 미치면서 많은 참조 자료를 자주 검색할 수 있습니다.

추론 프로세스는 그림 9에 나와 있습니다. LLM은 64개의 토큰을 생성할 때마다 현재 메모리를 버리고 이 64개의 토큰을 쿼리 텍스트로 사용하여 5개의 새로운 메모리를 검색하고 이러한 메모리를 계속해서 디코딩합니다. 마찬가지로, 큐를 처리할 때 LLM은 64개 토큰 블록마다 5개의 메모리를 검색합니다. 각 블록은 자체 메모리에 초점을 맞추며, 메모리는 블록마다 다를 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
기억 쓰기 및 읽기: 추론 중에 LLM은 검색된 명시적 기억을 상황별 키와 연결하여 self-attention 레이어를 통해 검색된 명시적 기억을 직접 읽을 수 있습니다(그림 9). 구체적으로, l번째 레이어의 각 어텐션 헤드 h에 대해 메모리 헤드로 선택되면 출력 Y^(l,h)가 변경됩니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
또한 이 연구에서는 명시적 메모리가 병렬을 사용합니다. 위치 인코딩, 즉 모든 키 위치는 그림 9와 같이 길이 128의 동일한 간격에 위치합니다.

2단계 사전 훈련: 사전 훈련은 워밍업과 지속적인 훈련의 두 단계로 구성됩니다. 진행 중인 훈련 단계에만 명시적 기억이 포함되는 반면, 준비 단계에서는 일반 사전 훈련과 동일한 형식을 사용합니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
그림 13은 준비 단계 동안의 훈련 손실 및 학습 속도 일정을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
그림 14는 지속적인 훈련 단계 동안의 훈련 손실과 학습률 일정을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
실험 결과

연구원들은 Memory3 모델의 일반 능력(벤치마크 작업), 대화 능력, 전문 능력(법률 및 의학), 환각을 평가했습니다. 또한 연구원들은 Memory3의 디코딩 속도도 측정하여 유사하고 더 큰 SOTA LLM 및 RAG 모델과 비교했습니다.

일반능력 평가 결과는 아래와 같은데, 그 결과 외현기억이 평균점수를 2.51% 높인 것으로 나타났습니다. 이에 비해 Llama2-7B와 13B의 점수 차이는 4.91%입니다. 명시적 메모리는 "유효 모델 크기"를 2.51/4.91 ≒ 51.1%까지 늘릴 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
다음으로 저자는 Memory3의 대화 능력을 평가했으며 그 결과는 표 18에 나열되어 있으며 모델이 더 적은 매개변수로 Vicuna-7B, Falcon-40B-Instruct 및 ChatGLM2-6B보다 성능이 우수함을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
현재 LLM은 여전히 ​​환각 문제에 직면해 있습니다. 개념적으로 Memory3는 명시적 기억이 참조 텍스트와 직접적으로 일치하기 때문에 환각에 덜 민감해야 합니다. 환각을 평가하기 위해 연구원들은 평가를 위해 두 개의 영어 데이터 세트를 선택했습니다. 결과는 표 19에 나와 있습니다. Memory3는 대부분의 작업에서 가장 높은 점수를 받았습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
명시적 메모리 사용의 한 가지 이점은 LLM이 지식 기반을 업데이트하여 새로운 도메인 및 작업에 쉽게 적응할 수 있다는 것입니다. 간단하게 작업 관련 참조를 Memory3의 지식 기반으로 가져오고 선택적으로 웜 스타트 시 명시적 메모리로 변환할 수 있습니다.그런 다음 모델은 추론을 위해 이 새로운 지식을 활용하여 비용이 많이 들고 손실 가능성이 있는 미세 조정 프로세스를 건너뛰고 RAG보다 빠르게 실행할 수 있습니다. 이러한 비용 절감은 그림 4에서 입증되었으며 다양한 산업 분야에서 LLM의 신속한 배포를 촉진할 수 있습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
아래 표는 Memory3가 대부분의 모델보다 성능이 더 우수하다는 것을 보여줍니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
마지막으로 연구원들은 초당 생성되는 토큰 수를 기준으로 Memory3의 디코딩 속도나 처리량을 평가했습니다.
학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.
자세한 내용은 원문을 참고해주세요.

위 내용은 학자 E Weinan이 새로운 작업을 이끌고 있습니다. 대형 모델에는 RAG 및 매개변수 저장 기능뿐 아니라 세 번째 종류의 메모리도 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

RLHF에서 DPO, TDPO까지 대규모 모델 정렬 알고리즘은 이미 '토큰 수준'입니다. RLHF에서 DPO, TDPO까지 대규모 모델 정렬 알고리즘은 이미 '토큰 수준'입니다. Jun 24, 2024 pm 03:04 PM

RLHF에서 DPO, TDPO까지 대규모 모델 정렬 알고리즘은 이미 '토큰 수준'입니다.

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다. OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다. Jul 19, 2024 am 01:29 AM

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다. 오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다. Jul 17, 2024 pm 10:02 PM

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다.

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산 무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산 Jul 23, 2024 pm 02:05 PM

무제한 비디오 생성, 계획 및 의사결정, 다음 토큰 예측의 확산 강제 통합 및 전체 시퀀스 확산

ControlNet의 저자가 또 다른 히트를 쳤습니다! 이틀 만에 14,000개의 별을 획득하여 그림에서 그림을 생성하는 전체 과정 ControlNet의 저자가 또 다른 히트를 쳤습니다! 이틀 만에 14,000개의 별을 획득하여 그림에서 그림을 생성하는 전체 과정 Jul 17, 2024 am 01:56 AM

ControlNet의 저자가 또 다른 히트를 쳤습니다! 이틀 만에 14,000개의 별을 획득하여 그림에서 그림을 생성하는 전체 과정

arXiv 논문은 '연발'로 게시될 수 있습니다. Stanford alphaXiv 토론 플랫폼은 온라인이며 LeCun은 이를 좋아합니다. arXiv 논문은 '연발'로 게시될 수 있습니다. Stanford alphaXiv 토론 플랫폼은 온라인이며 LeCun은 이를 좋아합니다. Aug 01, 2024 pm 05:18 PM

arXiv 논문은 '연발'로 게시될 수 있습니다. Stanford alphaXiv 토론 플랫폼은 온라인이며 LeCun은 이를 좋아합니다.

리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다. 리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다. Aug 05, 2024 pm 03:32 PM

리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다.

Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다. Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다. Jul 17, 2024 am 10:14 AM

Axiom 교육을 통해 LLM은 인과 추론을 학습할 수 있습니다. 6,700만 개의 매개변수 모델은 1조 매개변수 수준 GPT-4와 비슷합니다.

See all articles