> 기술 주변기기 > 일체 포함 > UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.

WBOY
풀어 주다: 2024-02-03 08:00:16
앞으로
1240명이 탐색했습니다.

합성 데이터는 대규모 언어 모델의 진화에서 가장 중요한 초석이 되었습니다.

지난해 말 일부 네티즌들은 전 OpenAI 수석 과학자 Ilya가 LLM 개발에 데이터 병목 현상이 없으며 합성 데이터가 대부분의 문제를 해결할 수 있다고 반복해서 언급했다고 폭로했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

Nvidia의 수석 과학자인 Jim Fan은 최신 논문을 연구한 후 합성 데이터를 전통적인 게임 및 이미지 생성 기술과 결합하면 LLM이 엄청난 자기 진화를 이룰 수 있다는 결론을 내렸습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

이 방법을 공식적으로 제안한 논문은 UCLA의 중국 팀이 작성했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

문서 주소: https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

그들은 자체 재생 메커니즘(SPIN)을 사용하여 합성 데이터를 생성하고 자기- 미세 조정 방법 없음 새 데이터 세트에 의존하여 Open LLM Leaderboard Benchmark에서 약한 LLM의 평균 점수가 58.14에서 63.16으로 향상되었습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.

연구원들은 자체 재생을 통해 언어 모델의 성능을 점진적으로 향상시키는 SPIN이라는 자체 미세 조정 방법을 제안했습니다. LLM은 이전 반복 버전과 경쟁합니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

이러한 방식으로 추가적인 인간 주석 데이터나 상위 수준 언어 모델의 피드백 없이도 모델의 자체 진화가 완료될 수 있습니다.

메인 모델과 상대 모델의 매개변수는 완전히 동일합니다. 두 가지 버전으로 자신과 대결해 보세요.

게임 과정은 다음 공식으로 요약할 수 있습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

자기 플레이 훈련 방법을 요약하면 아이디어는 대략 다음과 같습니다.

응답을 구별하세요. 상대 모델은 메인 모델과 인간의 목표 반응을 훈련하여 생성되며, 적대 모델은 가능한 한 구별할 수 없는 반응을 생성하는 것을 목표로 라운드에서 반복적으로 얻은 언어 모델입니다.

t번째 반복에서 얻은 언어 모델 매개변수가 θt라고 가정하고, t+1 반복에서 θt를 상대 플레이어로 사용하고 θt를 사용하여 각 프롬프트 x에 대한 응답 y'를 생성합니다. 감독된 미세 조정 데이터 세트.

그런 다음 감독된 미세 조정 데이터 세트에서 y'를 인간 응답 y와 구별할 수 있도록 새 언어 모델 매개변수 θt+1을 최적화합니다. 이는 점진적인 과정을 형성하여 목표 반응 분포에 점진적으로 접근할 수 있습니다.

여기서 메인 모델의 손실 함수는 y와 y' 사이의 함수 값의 차이를 고려하여 로그 손실을 사용합니다.

모델 매개변수가 너무 많이 벗어나는 것을 방지하기 위해 상대 모델에 KL 발산 정규화를 추가합니다.

구체적인 적대 게임 훈련 목표는 Formula 4.7에 나와 있습니다. 이론적인 분석을 통해 언어 모델의 응답 분포가 목표 응답 분포와 같을 때 최적화 과정이 수렴된다는 것을 알 수 있습니다.

게임 후 생성된 합성 데이터를 훈련에 활용하고, SPIN을 활용하여 자체 미세 조정을 하면 LLM의 성능을 효과적으로 향상시킬 수 있습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

그런데 초기 미세 조정 데이터를 단순히 다시 미세 조정하면 성능 저하가 발생합니다.

SPIN에는 초기 모델 자체와 기존의 미세 조정된 데이터 세트만 필요하므로 LLM은 SPIN을 통해 자체적으로 개선할 수 있습니다.

특히 SPIN은 DPO를 통해 추가 GPT-4 선호도 데이터로 훈련된 모델보다 성능이 뛰어납니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

또한 실험에서는 반복 학습이 더 많은 Epoch를 사용하여 학습하는 것보다 모델 성능을 더 효과적으로 향상할 수 있다는 것을 보여줍니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

단일 반복의 학습 기간을 연장해도 SPIN 성능은 저하되지 않지만 한계에 도달하게 됩니다.

반복이 많을수록 SPIN의 효과는 더욱 분명해집니다.

이 논문을 읽은 후 네티즌들은 한숨을 쉬었습니다.

합성 데이터가 대규모 언어 모델의 개발을 지배하게 될 것이며 이는 대규모 언어 모델 연구자들에게 매우 좋은 소식이 될 것입니다!

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.Pictures

자체 연주를 통해 LLM은 지속적으로 개선됩니다

특히 연구진이 개발한 SPIN 시스템은 상호 영향을 미치는 두 모델이 서로를 홍보하는 시스템입니다.

은 이전 반복 t의 LLM을 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.로 표시하며, 연구원은 이를 인간 주석이 달린 SFT 데이터 세트의 큐 x에 대한 응답 y를 생성하는 데 사용했습니다.

다음 목표는 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다. 생성된 응답 y와 인간이 생성한 응답 y'를 구별할 수 있는 새로운 LLMUCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.을 찾는 것입니다.

이 프로세스는 2인용 게임으로 볼 수 있습니다.

주요 플레이어 또는 새로운 LLMUCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.은 상대 플레이어의 반응과 인간이 생성한 반응을 식별하려고 시도합니다. 또는 이전 LLMUCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.이 생성합니다. 응답은 수동으로 주석이 달린 SFT 데이터세트의 데이터와 최대한 유사합니다.

이전 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.을 미세 조정하여 얻은 새로운 LLM UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.의 응답을 선호하므로 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.을 사용하여 보다 일관된 배포 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.이 이루어집니다.

다음 반복에서는 새로 획득한 LLMUCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.이 응답 생성 상대가 되며 자체 재생 프로세스의 목표는 LLM이 결국 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.로 수렴하여 가장 강력한 LLM이 더 이상 응답을 생성할 수 없도록 하는 것입니다. 이전에 생성된 응답 버전과 사람이 생성한 버전을 구별합니다.

SPIN을 사용하여 모델 성능을 향상시키는 방법

연구원들은 LLM 생성 응답과 인간 생성 응답을 구별하는 것이 주요 모델 목표인 2인용 게임을 설계했습니다. 동시에, 대적의 역할은 인간과 구별할 수 없는 반응을 만들어내는 것입니다. 연구원의 접근 방식의 핵심은 기본 모델을 교육하는 것입니다.

먼저 LLM의 응답과 인간의 응답을 구별하기 위해 기본 모델을 훈련하는 방법을 설명합니다.

연구원 접근 방식의 중심에는 메인 플레이어와 상대가 모두 동일한 LLM이지만 서로 다른 반복에서 나온 자체 게임 메커니즘이 있습니다.

더 구체적으로 상대는 이전 반복의 이전 LLM이고, 주 플레이어는 현재 반복에서 배울 새로운 LLM입니다. t+1 반복에는 (1) 주 모델 훈련, (2) 상대 모델 업데이트라는 두 단계가 포함됩니다.

마스터 모델 훈련

먼저, 연구원들은 LLM 반응과 인간 반응을 구별하기 위해 마스터 플레이어를 훈련시키는 방법을 설명할 것입니다. 적분 확률 측정(IPM)에서 영감을 받아 연구원들은 목적 함수를 공식화했습니다.

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.그림

적대 모델 업데이트

적대 모델의 목표는 다음과 같은 더 나은 LLM을 찾는 것입니다. 의 응답은 메인 모델의 p 데이터와 다르지 않습니다.

실험

SPIN은 벤치마크 성능을 효과적으로 향상시킵니다

연구원들은 SPIN의 효과를 입증하기 위한 광범위한 평가로 HuggingFace Open LLM Leaderboard를 사용했습니다.

아래 그림에서 연구원들은 0~3회 반복 후 SPIN으로 미세 조정된 모델의 성능을 기본 모델인 zephyr-7b-sft-full과 비교했습니다.

연구원들은 SPIN이 기본 모델이 완전히 미세 조정된 SFT 데이터 세트를 더욱 활용하여 모델 성능을 향상시키는 데 상당한 결과를 보인다는 것을 관찰할 수 있습니다.

반복 0에서는 모델 응답이 zephyr-7b-sft-full에서 생성되었으며, 연구원들은 평균 점수에서 2.66%의 전반적인 개선을 관찰했습니다.

이러한 개선은 특히 TruthfulQA 및 GSM8k 벤치마크에서 두드러져 각각 5% 및 10% 이상 증가했습니다.

반복 1에서 연구원들은 알고리즘 1에 설명된 프로세스에 따라 반복 0의 LLM 모델을 사용하여 SPIN에 대한 새로운 응답을 생성했습니다.

이 반복에서는 평균 1.32%의 추가 향상이 이루어졌으며 이는 Arc Challenge 및 TruthfulQA 벤치마크에서 특히 중요합니다.

이후 반복을 통해 다양한 작업에 대한 점진적인 개선 추세가 이어졌습니다. 동시에, 반복 t+1에서의 개선은 자연스럽게 더 작아집니다

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.picture

zephyr-7b-beta는 약 62k 선호도 데이터에 DPO를 사용하여 zephyr-7b-sft-full에서 파생된 모델입니다. 훈련을 받았습니다.

연구원들은 DPO가 선호도를 결정하기 위해 사람의 입력이나 높은 수준의 언어 모델 피드백이 필요하므로 데이터 생성에는 다소 비용이 많이 드는 프로세스라고 지적합니다.

반면에 연구진의 SPIN은 초기 모델 자체만 필요합니다.

또한 새로운 데이터 소스가 필요한 DPO와 달리 연구원의 방법은 기존 SFT 데이터 세트를 완전히 활용합니다.

아래 그림은 반복 0과 1에서 SPIN과 DPO 교육의 성능 비교를 보여줍니다(50k SFT 데이터 사용).

UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.사진

연구원들은 DPO가 새로운 소스의 더 많은 데이터를 활용하지만 기존 SFT 데이터를 기반으로 한 SPIN이 반복 1부터 시작된다는 것을 관찰할 수 있습니다. SPIN은 심지어 DPO의 성능을 능가하며 순위에서 SPIN 순위도 높습니다. 벤치마크 테스트는 DPO의 테스트를 훨씬 능가합니다.

참조:

https://www.php.cn/link/236522d75c8164f90a85448456e1d1aa

위 내용은 UCLA 중국어가 새로운 셀프 플레이 메커니즘을 제안합니다! LLM은 스스로 훈련하며 GPT-4 전문가 지도보다 효과가 더 좋습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿