


RNN 모델은 Transformer 헤게모니에 도전합니다! Mistral-7B에 필적하는 1% 비용 및 성능, 세계에서 가장 많은 100개 이상의 언어 지원
대형 모델들이 속속 투입되면서 트랜스포머의 위상도 잇따라 도전받고 있습니다.
최근 RWKV는 최신 RWKV-v5 아키텍처를 기반으로 하는 Eagle 7B 모델을 출시했습니다.
Eagle 7B는 다국어 벤치마크에서 탁월하며 영어 테스트에서도 상위 모델과 동등합니다.
동시에 Eagle 7B는 동일한 크기의 Transformer 모델에 비해 추론 비용이 10~100배 이상 절감되는 가장 환경 친화적인 7B라고 할 수 있습니다. 세계의 모델.
RWKV-v5에 대한 논문은 다음 달까지 공개되지 않을 수 있으므로 매개변수를 수백억 개로 확장할 수 있는 최초의 비 Transformer 아키텍처인 RWKV에 대한 논문을 먼저 제공합니다.
Pictures
문서 주소: https://arxiv.org/pdf/2305.13048.pdf
EMNLP 2023에서 이 작품을 승인했습니다. 저자는 전 세계 최고의 대학, 연구 기관 및 기술 분야에서 왔습니다. 세계.회사.
다음은 이 독수리가 트랜스포머 위를 날고 있는 모습을 담은 이글 7B의 공식 사진입니다.
Pictures
Eagle 7B
Eagle 7B는 100개 이상의 언어에서 얻은 1.1T(조) 토큰의 학습 데이터를 사용합니다. 아래 다중 언어 벤치마크 테스트에서 Eagle 7B가 평균 1위를 차지했습니다.
벤치마크에는 xLAMBDA, xStoryCloze, xWinograd 및 xCopa가 포함되어 있으며 23개 언어와 각 언어의 상식적 추론을 다루고 있습니다.
Eagle 7B는 그 중 3개에서 1위를 차지했습니다. 그 중 한 개가 Mistral-7B를 이기지 못하고 2위를 차지했지만, 상대가 사용한 훈련 데이터는 Eagle보다 훨씬 높았습니다.
Pictures
아래 그림의 영어 테스트에는 12개의 개별 벤치마크, 상식 추론, 세계 지식이 포함되어 있습니다.
영어 성능 테스트에서 Eagle 7B의 수준은 Falcon(1.5T), LLaMA2(2T), Mistral(>2T)에 가깝고 약 1T 훈련을 사용하는 MPT-7B와도 비슷합니다. 데이터.
Pictures
그리고 두 테스트 모두에서 새로운 v5 아키텍처는 이전 v4에 비해 전체적으로 크게 도약했습니다.
Eagle 7B는 현재 Linux Foundation에서 호스팅되며 무제한 개인 또는 상업적 용도로 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다.
다국어 지원
앞서 언급했듯이 Eagle 7B의 교육 데이터는 100개 이상의 언어에서 나온 반면 위에서 사용된 4개의 다국어 벤치마크에는 23개 언어만 포함됩니다.
Pictures
전체적으로 1위를 달성했지만 전체적으로 Eagle 7B는 손실을 입었습니다. 결국 벤치마크 테스트에서는 70개 이상의 다른 언어에서 모델의 성능을 직접 평가할 수 없습니다.
추가 교육 비용은 순위 향상에 도움이 되지 않습니다. 영어에 집중한다면 지금보다 더 나은 결과를 얻을 수 있습니다.
——그럼 RWKV는 왜 이런 일을 하는 걸까요? 공식은 다음과 같이 말했습니다:
영어뿐만 아니라 이 세계의 모든 사람을 위한 포괄적인 AI 구축
RWKV 모델에 대한 많은 피드백 중에서 가장 일반적인 것은 다음과 같습니다.
다국어 접근 방식은 해를 끼칩니다. 모델의 영어 평가 점수로 인해 선형 Transformer의 개발 속도가 느려졌습니다.
다국어 성능을 순수 영어 모델과 비교하는 것은 불공평합니다.
공식적으로 "대부분의 경우 이러한 의견에 동의합니다. "
"하지만 우리는 전 세계를 위한 AI를 구축하고 있기 때문에 이를 바꿀 계획이 없습니다. 이는 단순한 영어권 세계가 아닙니다."
Pictures
2023년에는 세계 인구 영어를 사용하는 사람(약 13억 명)이 세계 상위 25개 언어를 지원함으로써 모델은 약 40억 명, 즉 세계 인구의 50%에 도달할 수 있습니다.
팀은 모델이 더 많은 언어를 지원하는 등 저렴한 가격으로 저사양 하드웨어에서 실행될 수 있도록 하는 등 미래의 인공지능이 모든 사람에게 도움이 될 수 있기를 바라고 있습니다.
팀은 더 넓은 범위의 언어를 지원하기 위해 다국어 데이터 세트를 점진적으로 확장하고 전 세계 100% 지역으로 적용 범위를 천천히 확장하여 어떤 언어도 제외되지 않도록 할 것입니다.
데이터 세트 + 확장 가능한 아키텍처
모델 교육 과정에서 주목할 만한 현상이 있습니다.
교육 데이터의 규모가 계속 증가함에 따라 모델 성능이 점차 향상됩니다. 학습 데이터가 약 300B에 도달하면 모델은 학습 데이터 크기가 300B인 python-6.9b와 유사한 성능을 나타냅니다.
Picture
이 현상은 이전에 RWKV-v4 아키텍처에서 수행한 실험과 동일합니다. 즉, 훈련 데이터 크기가 동일할 때 RWKV와 같은 선형 변환기의 성능은 동일할 것입니다. 트랜스포머와 비슷하다.
그래서 이것이 사실이라면 모델의 성능 향상에 정확한 아키텍처보다 데이터가 더 중요한지 묻지 않을 수 없습니다.
Picture
Transformer 클래스 모델의 계산 및 저장 비용은 제곱 수준인 반면, 위 그림에서 RWKV 아키텍처의 계산 비용은 토큰 수에 따라 선형적으로만 증가한다는 것을 알고 있습니다.
아마도 우리는 접근성을 높이고 모든 사람을 위한 AI 비용을 낮추며 환경에 미치는 영향을 줄이기 위해 더 효율적이고 확장 가능한 아키텍처를 찾아야 할 것입니다.
RWKV
RWKV 아키텍처는 GPT 수준의 LLM 성능을 갖춘 RNN이면서도 Transformer처럼 병렬로 학습할 수 있습니다.
RWKV는 뛰어난 성능, 빠른 추론, 빠른 훈련, VRAM 절약, "무제한" 컨텍스트 길이 및 자유 문장 임베딩 등 RNN과 Transformer의 장점을 결합합니다.
다음 그림은 RWKV와 Transformer 모델의 계산 비용을 비교한 것입니다.
Pictures
Transformer의 시간 및 공간 복잡성 문제를 해결하기 위해 연구자들은 다양한 아키텍처를 제안했습니다.
Picture
RWKV 아키텍처는 일련의 누적된 잔여 블록으로 구성됩니다. 각 잔여 블록은 루프 구조의 시간적 믹싱 하위 블록과 채널 믹싱 하위 블록으로 구성됩니다
왼쪽 아래 그림은 RWKV 블록 요소이며 오른쪽에 RWKV 잔여 블록이 있고 언어 모델링을 위한 최종 헤더가 있습니다.
Picture
재귀는 현재 입력과 이전 시간 단계의 입력 사이의 선형 보간으로 표현될 수 있습니다(아래 그림의 대각선으로 표시됨). 이는 각 선형에 대해 독립적일 수 있습니다. 입력 임베딩 조정의 투영.
현재 토큰을 별도로 처리하는 벡터도 여기에 도입되어 잠재적인 성능 저하를 보상합니다.
Pictures
RWKV는 시간적 병렬 모드라고 부르는 방식으로 효율적으로 병렬화(행렬 곱셈)할 수 있습니다.
순환 네트워크에서는 일반적으로 이전 순간의 출력이 현재 순간의 입력으로 사용됩니다. 이는 다음 단계가 입력되기 전에 각 토큰을 계산해야 하는 언어 모델에 대한 자동 회귀 디코딩 추론에서 특히 두드러지며, 이를 통해 RWKV는 시간 모드라고 하는 RNN과 유사한 구조를 활용할 수 있습니다.
이 경우 RWKV는 추론 중 디코딩을 위해 편리하게 공식화할 수 있습니다. 와 달리 상태의 크기는 일정합니다.
그런 다음 RNN 디코더 역할을 하여 시퀀스 길이에 비해 일정한 속도와 메모리 공간을 제공하여 더 긴 시퀀스를 보다 효율적으로 처리할 수 있습니다.
반대로, self-attention의 KV 캐시는 시퀀스 길이에 비해 지속적으로 증가하므로 시퀀스가 길어짐에 따라 효율성이 감소하고 메모리 공간과 시간이 늘어납니다.
참조:
위 내용은 RNN 모델은 Transformer 헤게모니에 도전합니다! Mistral-7B에 필적하는 1% 비용 및 성능, 세계에서 가장 많은 100개 이상의 언어 지원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Deepseek 클래스 모델의 로컬 미세 조정은 컴퓨팅 리소스와 전문 지식이 충분하지 않아야합니다. 이러한 과제를 해결하기 위해 다음과 같은 전략을 채택 할 수 있습니다. 모델 양자화 : 모델 매개 변수를 저 반영 정수로 변환하여 메모리 발자국을 줄입니다. 더 작은 모델 사용 : 더 쉬운 로컬 미세 조정을 위해 작은 매개 변수가있는 사전 취사 모델을 선택하십시오. 데이터 선택 및 전처리 : 고품질 데이터를 선택하고 모델 효과에 영향을 미치는 데이터 품질이 좋지 않도록 적절한 전처리를 수행하십시오. 배치 교육 : 대규모 데이터 세트의 경우 메모리 오버플로를 피하기 위해 훈련을 위해 배치로 데이터를로드하십시오. GPU 로의 가속도 : 독립 그래픽 카드를 사용하여 교육 프로세스를 가속화하고 교육 시간을 단축하십시오.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

1. 먼저 Edge 브라우저에 접속하여 오른쪽 상단에 있는 점 3개를 클릭하세요. 2. 그런 다음 작업 표시줄에서 [확장 프로그램]을 선택하세요. 3. 그런 다음 필요하지 않은 플러그인을 닫거나 제거합니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는
