한 달도 더 전에 OpenAI의 GPT-4가 나왔습니다. 다양한 뛰어난 시각적 데모 외에도 중요한 업데이트도 구현합니다. 즉, 기본적으로 길이가 8k인 컨텍스트 토큰을 처리할 수 있지만 최대 32K(약 50페이지의 텍스트)까지 처리할 수 있습니다. 이는 GPT-4에 질문할 때 이전보다 훨씬 긴 텍스트를 입력할 수 있다는 의미입니다. 이는 GPT-4의 애플리케이션 시나리오를 크게 확장하고 긴 대화, 긴 텍스트, 파일 검색 및 분석을 더 잘 처리할 수 있습니다.
그러나 이 기록은 빠르게 깨졌습니다. Google Research의 CoLT5는 모델이 처리할 수 있는 컨텍스트 토큰 길이를 64k로 확장했습니다.
Transformer 아키텍처를 사용하는 이러한 모델은 모두 문제에 직면하기 때문에 이러한 혁신은 쉽지 않습니다. 긴 문서를 처리하는 Transformer는 계산상 매우 비용이 많이 듭니다. 주의 비용이 입력 길이에 따라 2차적으로 증가하여 대형 모델이 점점 더 어려워지기 때문입니다. 더 긴 입력에 적용합니다.
이에도 불구하고 연구자들은 여전히 이 방향으로 획기적인 발전을 이루고 있습니다. 며칠 전, 오픈 소스 대화형 AI 기술 스택 DeepPavlov 및 기타 기관의 연구에 따르면 다음과 같습니다. RMT(Recurrent Memory Transformer)라는 아키텍처를 사용하여 BERT 모델의 유효 컨텍스트 길이를 200만 개로 늘릴 수 있습니다. 높은 메모리 검색 정확도를 유지하면서 토큰(OpenAI의 계산 방법에 따르면 대략 3200페이지의 텍스트에 해당)을 생성합니다(참고: Recurrent Memory Transformer는 Aydar Bulatov 외가 NeurIPS 2022의 논문에서 제안한 방법입니다) . 새로운 방법을 사용하면 로컬 및 전역 정보를 저장하고 처리할 수 있으며 반복을 사용하여 입력 시퀀스 세그먼트 간의 정보 흐름이 가능해집니다.
저자는 "Recurrent Memory Transformer" 기사에서 Bulatov 등이 소개한 간단한 토큰 기반 메모리 메커니즘을 사용하여 RMT를 BERT와 같은 사전 훈련된 Transformer 모델과 결합할 수 있다고 밝혔습니다. , 단일 Nvidia GTX 1080Ti GPU는 1백만 개 이상의 토큰 시퀀스에 대해 완전한 주의와 완전한 정밀 작업을 수행할 수 있습니다.
문서 주소: https://arxiv.org/pdf/2304.11062.pdf
그러나 일부 사람들은 이것이 언급된 것처럼 진정한 "공짜 점심"이 아니라는 점을 상기시켰습니다. 위 논문의 개선은 "추론 시간 연장 + 실질적인 품질 저하"에 대한 대가로 달성됩니다. 따라서 아직 혁명은 아니지만 다음 패러다임의 기반이 될 수도 있습니다(토큰은 무한정 길 수 있습니다).
본 연구는 Bulatov 등이 2022년에 제안한 RMT(Recurrent Memory Transformer) 방식을 채택하여 플러그 앤 플레이 방식으로 변경합니다. 아래 그림은
긴 입력을 여러 개의 세그먼트로 나누어 메모리 벡터를 임베딩 전 첫 번째 세그먼트에 추가하고 세그먼트 토큰과 함께 처리하는 것입니다. BERT와 같은 순수 인코더 모델의 경우 순수 디코더 모델이 메모리를 읽기 및 쓰기 부분으로 나누는 것과 달리(Bulatov et al., 2022) 메모리는 세그먼트 시작 부분에 한 번만 추가됩니다. 시간 단계 τ 및 세그먼트
에 대해 루프는 다음과 같이 실행됩니다.
여기서 N은 Transformer의 레이어 수입니다. 순방향 전파 후
에는 세그먼트 τ의 업데이트된 메모리 토큰이 포함됩니다.
입력 시퀀스의 세그먼트가 순서대로 처리됩니다. 루프 연결을 활성화하기 위해 연구에서는 현재 세그먼트의 메모리 토큰 출력을 다음 세그먼트의 입력으로 전달합니다.
RMT의 메모리와 루프는 모두 전역 메모리 토큰에만 기반합니다. 이를 통해 백본 Transformer가 변경되지 않은 상태로 유지되므로 RMT의 메모리 강화 기능이 모든 Transformer 모델과 호환됩니다.
계산 효율성
이 연구에서는 다양한 크기와 시퀀스 길이의 RMT 및 Transformer 모델에 필요한 FLOP를 추정합니다.
아래 그림 3과 같이 세그먼트의 길이가 고정되어 있으면 RMT는 모든 모델 크기에 대해 선형적으로 확장할 수 있습니다. 본 연구에서는 입력 시퀀스를 세그먼트로 나누고 세그먼트 경계 내에서만 완전한 주의 매트릭스를 계산하여 선형 스케일링을 달성합니다.
FFN 레이어의 높은 계산 복잡성으로 인해 더 큰 Transformer 모델은 시퀀스 길이에 따라 더 느린 2차 스케일링을 나타내는 경향이 있습니다. 그러나 32000보다 큰 매우 긴 시퀀스의 경우 2차 확장으로 대체됩니다. 세그먼트가 두 개 이상인 시퀀스(이 연구에서는 > 512)의 경우 RMT는 비순환 모델보다 더 적은 FLOP를 필요로 하며 FLOP 수를 최대 295배까지 줄일 수 있습니다. RMT는 소형 모델의 경우 FLOP의 상대적인 감소를 제공하지만 OPT-175B 모델의 경우 FLOP의 29배 감소는 절대적인 측면에서 중요합니다.
기억 능력을 테스트하기 위해 연구에서는 간단한 사실과 기본 추론을 암기해야 하는 합성 데이터 세트를 구축했습니다. 작업 입력은 하나 이상의 사실과 모든 사실을 통해서만 답할 수 있는 질문으로 구성됩니다. 작업의 난이도를 높이기 위해 연구에서는 질문이나 답변과 관련 없는 자연어 텍스트도 추가하여 노이즈로 작용하므로 모델은 관련 없는 텍스트에서 사실을 분리하고 사실을 사용하여 질문에 답하는 작업을 수행했습니다.
Factual Memory
첫 번째 작업은 아래 그림 4의 상단에 표시된 것처럼 장기간 메모리에 정보를 쓰고 저장하는 RMT의 능력을 검사하는 것이었습니다. 가장 단순한 경우에는 사실이 입력의 시작 부분에 있는 경향이 있고 질문은 항상 입력의 끝에 있습니다. 질문과 답변 사이에 관련 없는 텍스트의 양은 전체 입력이 단일 모델 입력에 맞지 않는 지점까지 점차 증가합니다.
사실 탐지 및 기억
사실 탐지는 위 그림 4의 중간에 표시된 것처럼 사실을 입력의 임의 위치로 이동하여 작업의 난이도를 높입니다. 이를 위해서는 모델이 먼저 사실과 관련 없는 텍스트를 구별하고, 사실을 메모리에 기록한 다음, 마지막에 이를 사용하여 질문에 답해야 합니다.
추론을 위해 기억된 사실 사용
기억의 또 다른 작동은 기억된 사실과 현재 맥락을 추론에 사용하는 것입니다. 이 기능을 평가하기 위해 연구원들은 위의 그림 4 하단에 표시된 것처럼 두 가지 사실이 생성되어 입력 시퀀스 내에 배치되는 보다 복잡한 작업을 사용했습니다. 시퀀스 마지막에 묻는 질문은 질문에 올바르게 답하기 위해 임의의 사실을 사용해야 하는 방식으로 설명됩니다.
연구원들은 4~8개의 NVIDIA 1080ti GPU를 사용하여 모델을 훈련하고 평가했습니다. 더 긴 시퀀스의 경우 단일 40GB NVIDIA A100을 사용하여 평가 속도를 높였습니다.
Course Learning
연구원들은 훈련 계획을 사용하면 솔루션의 정확성과 안정성이 크게 향상될 수 있음을 관찰했습니다. 처음에 RMT는 더 짧은 버전의 작업에 대해 훈련을 받고 훈련이 수렴됨에 따라 다른 세그먼트를 추가하여 작업 길이를 늘립니다. 코스 학습 과정은 필요한 입력 길이에 도달할 때까지 계속됩니다.
실험에서 연구진은 먼저 단일 세그먼트에 적합한 시퀀스부터 시작했습니다. 실제 세그먼트 크기는 499이지만 BERT의 3개의 특수 토큰과 모델 입력에서 유지되는 10개의 메모리 자리 표시자로 인해 크기는 512입니다. 그들은 더 짧은 작업에 대한 훈련 후에 RMT가 완벽한 솔루션으로 수렴하기 위해 더 적은 훈련 단계를 사용한다는 사실 덕분에 더 긴 버전의 작업을 해결하기가 더 쉽다는 점에 주목합니다.
외삽 능력
다른 시퀀스 길이에 대한 RMT의 일반화 능력은 무엇입니까? 이 질문에 답하기 위해 연구원들은 아래 그림 5와 같이 더 긴 작업을 해결하기 위해 다양한 수의 세그먼트에 대해 훈련된 모델을 평가했습니다.
그들은 모델이 더 짧은 작업에서 더 잘 수행되는 경향이 있다는 것을 관찰했습니다. 유일한 예외는 모델이 더 긴 시퀀스에 대해 훈련되면 해결하기 어려워지는 단일 세그먼트 추론 작업입니다. 한 가지 가능한 설명은 작업 크기가 하나의 세그먼트를 초과하기 때문에 모델이 더 이상 첫 번째 세그먼트의 문제를 "예상"하지 않아 품질이 저하된다는 것입니다.
흥미롭게도 훈련 세그먼트 수가 증가함에 따라 더 긴 시퀀스로 일반화하는 RMT의 능력도 나타납니다. 5개 이상의 세그먼트를 훈련한 후 RMT는 두 배 더 긴 작업으로 거의 완벽하게 일반화할 수 있습니다.
일반화의 한계를 테스트하기 위해 연구원들은 검증 작업 크기를 4096개 세그먼트 또는 2,043,904개 토큰으로 늘렸습니다(위 그림 1 참조). RMT는 이러한 긴 시퀀스에서 놀라울 정도로 좋은 성능을 발휘했습니다. 탐지 및 기억 작업은 가장 간단하고 추론 작업은 가장 복잡합니다.
아래 그림 6에서 연구원은 특정 세그먼트에 대한 RMT 주의를 조사하여 메모리 작업이 특정 주의 패턴과 일치한다는 것을 관찰했습니다. 또한 섹션 5.2의 매우 긴 시퀀스에 대한 높은 외삽 성능은 수천 번 사용되는 경우에도 학습된 메모리 작업의 효율성을 보여줍니다.
더 기술적이고 실험적인 세부 사항은 원본 논문을 참조하세요.
위 내용은 진정한 양자 속도 읽기: 한 번에 50페이지의 텍스트만 이해할 수 있는 GPT-4의 한계를 뛰어넘어 수백만 개의 토큰으로 새로운 연구가 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!