Tsinghua NLP Group, InfLLM 출시: 추가 교육 필요 없음, '1024K 초장 컨텍스트' 100% 리콜!
대형 모델은 제한된 상황만 기억하고 이해할 수 있으며, 이는 실제 적용에 큰 제한이 되었습니다. 예를 들어, 대화형 AI 시스템은 전날의 대화를 지속적으로 기억하지 못하는 경우가 많으며, 이로 인해 대규모 모델을 사용하여 구축된 에이전트가 일관되지 않은 동작과 메모리를 나타내는 결과를 낳습니다.
대형 모델이 더 긴 컨텍스트를 더 잘 처리할 수 있도록 연구원들은 InfLLM이라는 새로운 방법을 제안했습니다. 칭화대학교, MIT, 런민대학교 연구진이 공동으로 제안한 이 방법을 사용하면 LLM(대형 언어 모델)이 추가 교육 없이 매우 긴 텍스트를 처리할 수 있습니다. InfLLM은 소량의 컴퓨팅 리소스와 그래픽 메모리 오버헤드를 활용하여 매우 긴 텍스트를 효율적으로 처리합니다.
논문 주소: https://arxiv.org/abs/2402.04617
코드 저장소: https://github.com/thunlp/InfLLM
실험 결과에 따르면 InfLLM은 효과적 Mistral 및 LLaMA의 컨텍스트 처리 창을 크게 확장하고 1024K 컨텍스트로 건초 더미에서 바늘을 찾는 작업에서 100% 재현율을 달성합니다.
연구 배경
대규모 사전 훈련된 언어 모델(LLM)은 최근 몇 년 동안 많은 작업에서 획기적인 발전을 이루었으며 많은 응용 프로그램의 기본 모델이 되었습니다.
이러한 실제 응용 프로그램은 긴 시퀀스를 처리하는 LLM의 능력에 더 높은 도전 과제를 제기합니다. 예를 들어, LLM 기반 에이전트는 외부 환경에서 받은 정보를 지속적으로 처리해야 하므로 더 강력한 메모리 기능이 필요합니다. 동시에 대화형 AI는 보다 개인화된 응답을 생성하기 위해 사용자와의 대화 내용을 더 잘 기억해야 합니다.
현재 대규모 모델은 일반적으로 수천 개의 토큰이 포함된 시퀀스에 대해서만 사전 훈련되므로 매우 긴 텍스트에 적용할 때 두 가지 주요 문제가 발생합니다.
1. 길이: 더 긴 텍스트에 LLM을 직접 적용하려면 LLM이 훈련 범위를 넘어서는 위치 인코딩을 처리해야 하는 경우가 많으며, 이로 인해 배포 외 문제가 발생하고 일반화에 실패합니다.
2. 컨텍스트가 지나치게 길면 모델의 주의가 관련 없는 정보에 지나치게 주의가 분산되어 컨텍스트에서 장거리 의미론적 종속성을 효과적으로 모델링하는 것이 불가능해집니다. Method Introduction
InfLLM Schematic
저자는 대형 모델의 길이 일반화 능력을 효율적으로 달성하기 위해 훈련 없는 메모리 향상 방법인 InfLLM을 제안하여 매우 긴 시퀀스의 스트리밍 처리를 제안합니다.
InfLLM은 제한된 계산 비용으로 초장거리 컨텍스트에서 장거리 의미 종속성을 포착하는 LLM의 본질적인 능력을 자극하여 효율적인 긴 텍스트 이해를 가능하게 하는 것을 목표로 합니다.
전체 프레임워크: 긴 텍스트 주의가 희박하다는 점을 고려하면 일반적으로 각 토큰을 처리하는 데에는 해당 컨텍스트의 작은 부분만 필요합니다.
저자는 슬라이딩 윈도우 메커니즘을 사용하여 매우 긴 컨텍스트 정보를 저장하기 위해 외부 메모리 모듈을 구축했습니다. 각 계산 단계에서 현재 토큰에 가까운 토큰(로컬 토큰)만 소량과 관련됩니다. 외부 메모리 모듈 정보는 주의 계층 계산에 포함되며 기타 관련 없는 노이즈는 무시됩니다.
따라서 LLM은 제한된 창 크기를 사용하여 전체 긴 시퀀스를 이해하고 노이즈 발생을 방지할 수 있습니다.
그러나 매우 긴 시퀀스의 대규모 컨텍스트는 메모리 모듈에서 효과적인 관련 정보 위치 및 메모리 검색 효율성에 심각한 문제를 가져옵니다.
이러한 문제를 해결하기 위해 컨텍스트 메모리 모듈의 각 메모리 단위는 의미 블록으로 구성되며 의미 블록은 여러 개의 연속된 토큰으로 구성됩니다.
구체적으로, (1) 관련 메모리 단위를 효과적으로 찾기 위해 각 의미 블록의 일관된 의미는 조각화된 토큰보다 관련 정보 쿼리의 요구를 더 효과적으로 충족할 수 있습니다.
또한 저자는 각 의미 블록에서 의미상 가장 중요한 토큰, 즉 가장 높은 attention 점수를 받은 토큰을 의미 블록의 표현으로 선택합니다. 이 방법은 상관관계 계산의 부정확성을 방지하는 데 도움이 됩니다. . 중요한 토큰의 간섭.
(2) 효율적인 메모리 검색을 위해 시맨틱 블록 수준의 메모리 단위는 토큰별 및 어텐션별 상관 계산을 피하여 계산 복잡성을 줄입니다.
또한 시맨틱 블록 수준 메모리 장치는 지속적인 메모리 액세스를 보장하고 메모리 로딩 비용을 줄입니다.
덕분에 저자는 컨텍스트 메모리 모듈에 대한 효율적인 오프로딩 메커니즘(Offloading)을 설계했습니다.
대부분의 메모리 유닛이 자주 사용되지 않는다는 점을 고려하여 InfLLM은 모든 메모리 유닛을 CPU 메모리로 오프로드하고 자주 사용되는 메모리 유닛을 GPU 메모리에 동적으로 유지하여 비디오 메모리 사용량을 크게 줄입니다.
InfLLM은 다음과 같이 요약할 수 있습니다.
1. 슬라이딩 윈도우를 기반으로 장거리 컨텍스트 메모리 모듈을 추가합니다.
2. 역사적 맥락을 의미론적 덩어리로 나누어 맥락 기억 모듈에서 기억 단위를 형성합니다. 각 메모리 단위는 이전 어텐션 계산의 어텐션 점수를 통해 메모리 단위의 표현인 대표 토큰을 결정합니다. 이를 통해 컨텍스트에서 노이즈 간섭을 피하고 메모리 쿼리 복잡성을 줄입니다
실험 분석
저자는 이를 Mistral-7b-Inst-v0.2(32K) 및 Vicuna-7b-v1.5(4K) 모델 InfLLM에 적용했습니다. , 각각 4K와 2K의 로컬 창 크기를 사용합니다.
원본 모델과 비교하여 위치 인코딩 보간, Infinite-LM 및 StreamingLLM은 긴 텍스트 데이터 Infinite-Bench 및 Longbench에서 상당한 성능 향상을 달성했습니다.
매우 긴 텍스트에 대한 실험
또한 저자는 더 긴 텍스트에 대한 InfLLM의 일반화 능력을 계속 탐구했으며 여전히 "건초 더미 속의 바늘"에서 수행할 수 있습니다. " 1024K 길이의 태스크는 100%의 재현율을 유지합니다.
건초 더미에서 바늘 찾기 실험 결과
Summary
이 기사에서 팀은 LLM의 초장문 텍스트 처리를 훈련 없이 확장하고 장거리 의미 체계를 캡처할 수 있는 InfLLM을 제안했습니다. 정보 .
InfLLM은 슬라이딩 윈도우를 기반으로 장거리 상황 정보가 포함된 메모리 모듈을 추가하고 캐시 및 오프로드 메커니즘을 사용하여 적은 양의 계산 및 메모리 소비로 스트리밍 긴 텍스트 추론을 구현합니다.
위 내용은 Tsinghua NLP Group, InfLLM 출시: 추가 교육 필요 없음, '1024K 초장 컨텍스트' 100% 리콜!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소
