UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.
합성 데이터는 대규모 언어 모델의 진화에서 가장 중요한 초석이 되었습니다.
지난해 말 일부 네티즌들은 전 OpenAI 수석 과학자 Ilya가 LLM 개발에 데이터 병목 현상이 없으며 합성 데이터가 대부분의 문제를 해결할 수 있다고 반복해서 언급했다고 폭로했습니다.
Pictures
Nvidia의 수석 과학자인 Jim Fan은 최신 논문을 연구한 후 합성 데이터를 전통적인 게임 및 이미지 생성 기술과 결합하면 LLM이 엄청난 자기 진화를 이룰 수 있다는 결론을 내렸습니다.
Pictures
이 방법을 공식적으로 제안한 논문은 UCLA의 중국 팀이 작성했습니다.
Pictures
문서 주소: https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa
그들은 자체 재생 메커니즘(SPIN)을 사용하여 합성 데이터를 생성하고 자기- 미세 조정 방법 없음 새 데이터 세트에 의존하여 Open LLM Leaderboard Benchmark에서 약한 LLM의 평균 점수가 58.14에서 63.16으로 향상되었습니다.
연구원들은 자체 재생을 통해 언어 모델의 성능을 점진적으로 향상시키는 SPIN이라는 자체 미세 조정 방법을 제안했습니다. LLM은 이전 반복 버전과 경쟁합니다.
Pictures
이러한 방식으로 추가적인 인간 주석 데이터나 상위 수준 언어 모델의 피드백 없이도 모델의 자체 진화가 완료될 수 있습니다.
메인 모델과 상대 모델의 매개변수는 완전히 동일합니다. 두 가지 버전으로 자신과 대결해 보세요.
게임 과정은 다음 공식으로 요약할 수 있습니다.
Pictures
자기 플레이 훈련 방법을 요약하면 아이디어는 대략 다음과 같습니다.
응답을 구별하세요. 상대 모델은 메인 모델과 인간의 목표 반응을 훈련하여 생성되며, 적대 모델은 가능한 한 구별할 수 없는 반응을 생성하는 것을 목표로 라운드에서 반복적으로 얻은 언어 모델입니다.
t번째 반복에서 얻은 언어 모델 매개변수가 θt라고 가정하고, t+1 반복에서 θt를 상대 플레이어로 사용하고 θt를 사용하여 각 프롬프트 x에 대한 응답 y'를 생성합니다. 감독된 미세 조정 데이터 세트.
그런 다음 감독된 미세 조정 데이터 세트에서 y'를 인간 응답 y와 구별할 수 있도록 새 언어 모델 매개변수 θt+1을 최적화합니다. 이는 점진적인 과정을 형성하여 목표 반응 분포에 점진적으로 접근할 수 있습니다.
여기서 메인 모델의 손실 함수는 y와 y' 사이의 함수 값의 차이를 고려하여 로그 손실을 사용합니다.
모델 매개변수가 너무 많이 벗어나는 것을 방지하기 위해 상대 모델에 KL 발산 정규화를 추가합니다.
구체적인 적대 게임 훈련 목표는 Formula 4.7에 나와 있습니다. 이론적인 분석을 통해 언어 모델의 응답 분포가 목표 응답 분포와 같을 때 최적화 과정이 수렴된다는 것을 알 수 있습니다.
게임 후 생성된 합성 데이터를 훈련에 활용하고, SPIN을 활용하여 자체 미세 조정을 하면 LLM의 성능을 효과적으로 향상시킬 수 있습니다.
Pictures
그런데 초기 미세 조정 데이터를 단순히 다시 미세 조정하면 성능 저하가 발생합니다.
SPIN에는 초기 모델 자체와 기존의 미세 조정된 데이터 세트만 필요하므로 LLM은 SPIN을 통해 자체적으로 개선할 수 있습니다.
특히 SPIN은 DPO를 통해 추가 GPT-4 선호도 데이터로 훈련된 모델보다 성능이 뛰어납니다.
Pictures
또한 실험에서는 반복 학습이 더 많은 Epoch를 사용하여 학습하는 것보다 모델 성능을 더 효과적으로 향상할 수 있다는 것을 보여줍니다.
Pictures
단일 반복의 학습 기간을 연장해도 SPIN 성능은 저하되지 않지만 한계에 도달하게 됩니다.
반복이 많을수록 SPIN의 효과는 더욱 분명해집니다.
이 논문을 읽은 후 네티즌들은 한숨을 쉬었습니다.
합성 데이터가 대규모 언어 모델의 개발을 지배하게 될 것이며 이는 대규모 언어 모델 연구자들에게 매우 좋은 소식이 될 것입니다!
Pictures
자체 연주를 통해 LLM은 지속적으로 개선됩니다
특히 연구진이 개발한 SPIN 시스템은 상호 영향을 미치는 두 모델이 서로를 홍보하는 시스템입니다.
은 이전 반복 t의 LLM을 로 표시하며, 연구원은 이를 인간 주석이 달린 SFT 데이터 세트의 큐 x에 대한 응답 y를 생성하는 데 사용했습니다.
다음 목표는 생성된 응답 y와 인간이 생성한 응답 y'를 구별할 수 있는 새로운 LLM
을 찾는 것입니다.
이 프로세스는 2인용 게임으로 볼 수 있습니다.
주요 플레이어 또는 새로운 LLM은 상대 플레이어의 반응과 인간이 생성한 반응을 식별하려고 시도합니다. 또는 이전 LLM
이 생성합니다. 응답은 수동으로 주석이 달린 SFT 데이터세트의 데이터와 최대한 유사합니다.
이전 을 미세 조정하여 얻은 새로운 LLM
은
의 응답을 선호하므로
을 사용하여 보다 일관된 배포
이 이루어집니다.
다음 반복에서는 새로 획득한 LLM이 응답 생성 상대가 되며 자체 재생 프로세스의 목표는 LLM이 결국
로 수렴하여 가장 강력한 LLM이 더 이상 응답을 생성할 수 없도록 하는 것입니다. 이전에 생성된 응답 버전과 사람이 생성한 버전을 구별합니다.
SPIN을 사용하여 모델 성능을 향상시키는 방법
연구원들은 LLM 생성 응답과 인간 생성 응답을 구별하는 것이 주요 모델 목표인 2인용 게임을 설계했습니다. 동시에, 대적의 역할은 인간과 구별할 수 없는 반응을 만들어내는 것입니다. 연구원의 접근 방식의 핵심은 기본 모델을 교육하는 것입니다.
먼저 LLM의 응답과 인간의 응답을 구별하기 위해 기본 모델을 훈련하는 방법을 설명합니다.
연구원 접근 방식의 중심에는 메인 플레이어와 상대가 모두 동일한 LLM이지만 서로 다른 반복에서 나온 자체 게임 메커니즘이 있습니다.
더 구체적으로 상대는 이전 반복의 이전 LLM이고, 주 플레이어는 현재 반복에서 배울 새로운 LLM입니다. t+1 반복에는 (1) 주 모델 훈련, (2) 상대 모델 업데이트라는 두 단계가 포함됩니다.
마스터 모델 훈련
먼저, 연구원들은 LLM 반응과 인간 반응을 구별하기 위해 마스터 플레이어를 훈련시키는 방법을 설명할 것입니다. 적분 확률 측정(IPM)에서 영감을 받아 연구원들은 목적 함수를 공식화했습니다.
그림
적대 모델 업데이트
적대 모델의 목표는 다음과 같은 더 나은 LLM을 찾는 것입니다. 의 응답은 메인 모델의 p 데이터와 다르지 않습니다.
실험
SPIN은 벤치마크 성능을 효과적으로 향상시킵니다
연구원들은 SPIN의 효과를 입증하기 위한 광범위한 평가로 HuggingFace Open LLM Leaderboard를 사용했습니다.
아래 그림에서 연구원들은 0~3회 반복 후 SPIN으로 미세 조정된 모델의 성능을 기본 모델인 zephyr-7b-sft-full과 비교했습니다.
연구원들은 SPIN이 기본 모델이 완전히 미세 조정된 SFT 데이터 세트를 더욱 활용하여 모델 성능을 향상시키는 데 상당한 결과를 보인다는 것을 관찰할 수 있습니다.
반복 0에서는 모델 응답이 zephyr-7b-sft-full에서 생성되었으며, 연구원들은 평균 점수에서 2.66%의 전반적인 개선을 관찰했습니다.
이러한 개선은 특히 TruthfulQA 및 GSM8k 벤치마크에서 두드러져 각각 5% 및 10% 이상 증가했습니다.
반복 1에서 연구원들은 알고리즘 1에 설명된 프로세스에 따라 반복 0의 LLM 모델을 사용하여 SPIN에 대한 새로운 응답을 생성했습니다.
이 반복에서는 평균 1.32%의 추가 향상이 이루어졌으며 이는 Arc Challenge 및 TruthfulQA 벤치마크에서 특히 중요합니다.
이후 반복을 통해 다양한 작업에 대한 점진적인 개선 추세가 이어졌습니다. 동시에, 반복 t+1에서의 개선은 자연스럽게 더 작아집니다
picture
zephyr-7b-beta는 약 62k 선호도 데이터에 DPO를 사용하여 zephyr-7b-sft-full에서 파생된 모델입니다. 훈련을 받았습니다.
연구원들은 DPO가 선호도를 결정하기 위해 사람의 입력이나 높은 수준의 언어 모델 피드백이 필요하므로 데이터 생성에는 다소 비용이 많이 드는 프로세스라고 지적합니다.
반면에 연구진의 SPIN은 초기 모델 자체만 필요합니다.
또한 새로운 데이터 소스가 필요한 DPO와 달리 연구원의 방법은 기존 SFT 데이터 세트를 완전히 활용합니다.
아래 그림은 반복 0과 1에서 SPIN과 DPO 교육의 성능 비교를 보여줍니다(50k SFT 데이터 사용).
사진
연구원들은 DPO가 새로운 소스의 더 많은 데이터를 활용하지만 기존 SFT 데이터를 기반으로 한 SPIN이 반복 1부터 시작된다는 것을 관찰할 수 있습니다. SPIN은 심지어 DPO의 성능을 능가하며 순위에서 SPIN 순위도 높습니다. 벤치마크 테스트는 DPO의 테스트를 훨씬 능가합니다.
참조:
위 내용은 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











번역기 | Bugatti 리뷰 | Chonglou 이 문서에서는 GroqLPU 추론 엔진을 사용하여 JanAI 및 VSCode에서 초고속 응답을 생성하는 방법을 설명합니다. 모두가 AI의 인프라 측면에 초점을 맞춘 Groq와 같은 더 나은 대규모 언어 모델(LLM)을 구축하기 위해 노력하고 있습니다. 이러한 대형 모델의 빠른 응답은 이러한 대형 모델이 더 빠르게 응답하도록 보장하는 핵심입니다. 이 튜토리얼에서는 GroqLPU 구문 분석 엔진과 API 및 JanAI를 사용하여 노트북에서 로컬로 액세스하는 방법을 소개합니다. 이 기사에서는 코드 생성, 코드 리팩터링, 문서 입력 및 테스트 단위 생성을 돕기 위해 이를 VSCode에 통합합니다. 이 기사에서는 우리만의 인공 지능 프로그래밍 도우미를 무료로 만들 것입니다. GroqLPU 추론 엔진 Groq 소개

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

테렌스 타오(Terence Tao)를 비롯한 많은 수학자들이 극찬한 공식 수학 도구인 LeanCopilot이 다시 진화했다고요? 방금 Caltech 교수인 Anima Anandkumar는 팀이 LeanCopilot 논문의 확장 버전을 출시하고 코드 기반을 업데이트했다고 발표했습니다. 이미지 논문 주소: https://arxiv.org/pdf/2404.12534.pdf 최신 실험에 따르면 이 Copilot 도구는 수학적 증명 단계의 80% 이상을 자동화할 수 있는 것으로 나타났습니다! 이 기록은 이전 베이스라인 이솝보다 2.3배 향상된 기록이다. 그리고 이전과 마찬가지로 MIT 라이선스에 따른 오픈 소스입니다. 사진 속 그는 중국 소년 송페이양이다.

이미지 출처@visualchinesewen|Wang Jiwei "인간 + RPA"에서 "인간 + 생성 AI + RPA"까지, LLM은 RPA 인간-컴퓨터 상호 작용에 어떤 영향을 미치나요? 또 다른 관점에서 보면 LLM은 인간-컴퓨터 상호 작용의 관점에서 RPA에 어떤 영향을 미치나요? 프로그램 개발과 프로세스 자동화에서 인간과 컴퓨터의 상호작용에 영향을 미치는 RPA도 이제 LLM으로 바뀌게 될까요? LLM은 인간과 컴퓨터의 상호 작용에 어떤 영향을 미치나요? 생성 AI는 RPA 인간과 컴퓨터의 상호 작용을 어떻게 변화시키나요? 한 기사에서 이에 대해 자세히 알아보세요. 대형 모델의 시대가 다가오고 있으며, LLM 기반 생성 AI는 RPA 인간-컴퓨터 상호 작용을 빠르게 변화시키고 있으며, 생성 AI는 인간-컴퓨터 상호 작용을 재정의하고 LLM은 RPA 소프트웨어 아키텍처의 변화에 영향을 미치고 있습니다. RPA가 프로그램 개발과 자동화에 어떤 기여를 하는지 묻는다면, 그 중 하나는 인간과 컴퓨터의 상호 작용(HCI, h)을 변화시켰다는 것입니다.

Plaud Note AI Voice Recorder(Amazon에서 159달러에 구매 가능)를 개발한 회사인 Plaud가 신제품을 발표했습니다. NotePin이라고 불리는 이 장치는 AI 메모리 캡슐로 설명되며 Humane AI Pin과 마찬가지로 착용 가능합니다. 노트핀은

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

Llama3에 대해 새로운 테스트 결과가 공개되었습니다. 대형 모델 평가 커뮤니티 LMSYS가 공개한 대형 모델 순위 목록에서 Llama3는 5위에 올랐으며, 영어 부문에서는 GPT-4와 함께 공동 1위를 차지했습니다. 다른 벤치마크와는 그림이 다릅니다. 이 목록은 모델 간 1:1 대결을 기반으로 하며, 네트워크 전체의 평가자들이 각자의 제안과 점수를 내립니다. 결국 Llama3가 5위를 차지했고, GPT-4와 Claude3 Super Cup Opus의 세 가지 버전이 그 뒤를 이었습니다. 영어 싱글 목록에서는 Llama3가 Claude를 제치고 GPT-4와 동점을 기록했습니다. 이 결과에 대해 Meta의 수석 과학자 LeCun은 매우 기뻐했으며 트윗을 통해 다음과 같이 말했습니다.
