10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.-일체 포함-php.cn

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

王林

풀어 주다： 2023-06-06 17:16:06

앞으로

1333명이 탐색했습니다.

인간의 사회적 가치와 일치하는 언어 모델의 행동을 만드는 것은 현재 언어 모델 개발의 중요한 부분입니다. 해당 훈련을 가치 정렬이라고도 합니다.

현재 주류 솔루션은 ChatGPT에서 사용하는 인간 피드백 기반 강화 학습인 RLHF(Reinforcement Learning from Human Feedback)입니다. 이 솔루션은 먼저 인간 판단의 대용으로 보상 모델(가치 모델)을 교육합니다. 에이전트 모델은 강화 학습 단계에서 생성 언어 모델에 감독 신호로 보상을 제공합니다.

이 방법에는 다음과 같은 문제점이 있습니다.

1. 프록시 모델에 의해 생성된 보상은 쉽게 깨지거나 변조될 수 있습니다.

2. 훈련 과정에서 에이전트 모델은 생성 모델과 지속적으로 상호 작용해야 하며, 이 과정은 매우 시간이 많이 걸리고 비효율적일 수 있습니다. 고품질 감독 신호를 보장하려면 에이전트 모델이 생성 모델보다 작아서는 안 됩니다. 즉, 강화 학습 최적화 프로세스 중에 최소 두 개의 더 큰 모델이 추론(보상 판단)과 매개변수를 교대로 수행해야 함을 의미합니다. 업데이트(생성 모델 매개변수 최적화). 이러한 설정은 대규모 분산 훈련에서는 매우 불편할 수 있습니다.

3. 가치 모델 자체는 인간의 사고 모델과 뚜렷한 일치점이 없습니다. 저희는 별도의 채점 모델을 염두에 두고 있지 않으며, 고정된 채점 기준을 오랫동안 유지하는 것이 사실 매우 어렵습니다. 대신, 우리가 성장하면서 형성하는 가치 판단의 대부분은 일상적인 사회적 상호 작용에서 비롯됩니다. 유사한 상황에 대한 다양한 사회적 반응을 분석함으로써 우리는 권장되는 것과 그렇지 않은 것을 깨닫게 됩니다. 이러한 수많은 '사회화-피드백-개선'을 통해 점차 축적된 경험과 합의는 인류사회의 공통된 가치판단이 되었습니다.

Dartmouth, Stanford, Google DeepMind 및 기타 기관의 최근 연구에 따르면 소셜 게임으로 구성된 고품질 데이터와 간단하고 효율적인 정렬 알고리즘을 사용하는 것이 정렬을 달성하는 열쇠가 될 수 있음이 나타났습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

글 주소: https://arxiv.org/pdf/2305.16960.pdf
코드 주소: https://github.com/agi-templar/Stable- Alignment
모델 다운로드(base, SFT, alignment 모델 포함): https://huggingface.co/agi-css

저자는 다중 에이전트 방식을 제안합니다. 게임 데이터에 대해 훈련된 방법. 기본 아이디어는 학습 단계에서 보상 모델과 생성 모델의 온라인 상호 작용을 게임 내 다수의 자율 에이전트 간의 오프라인 상호 작용(높은 샘플링 속도, 게임 미리보기)으로 전환하는 것으로 이해할 수 있습니다. 게임 환경은 훈련과 독립적으로 실행되며 대규모 병렬화가 가능합니다. 감독 신호는 에이전트의 보상 모델 성능에 의존하는 것에서 수많은 자율 에이전트의 집단 지능에 의존하는 것으로 이동합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

이를 위해 저자는 Sandbox라는 가상 소셜 모델을 설계했습니다. 샌드박스는 그리드 포인트로 구성된 세계이며, 각 그리드 포인트는 소셜 에이전트입니다. 사회체에는 각 상호 작용에 대한 질문, 답변, 피드백 등과 같은 다양한 정보를 저장하는 데 사용되는 메모리 시스템이 있습니다. 사회 집단이 질문에 응답할 때마다 먼저 이 답변에 대한 맥락적 참조로서 메모리 시스템에서 질문과 가장 관련 있는 N개의 역사적 질문과 답변을 검색하고 반환해야 합니다. 이러한 설계를 통해 사회체의 위치는 여러 차례의 상호작용을 통해 지속적으로 업데이트될 수 있으며, 업데이트된 위치는 과거와의 일정한 연속성을 유지할 수 있습니다. 각 소셜 그룹은 초기화 단계에서 서로 다른 기본 위치를 갖습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

게임 데이터를 정렬 데이터로 변환

실험에서 저자는 소셜 시뮬레이션을 위해 10x10 그리드 샌드박스(총 100개의 소셜 엔터티)를 사용하고 소셜 규칙(소위 샌드박스 규칙)을 공식화했습니다. 모든 소셜 엔터티는 질문에 대한 답변을 보다 사회적으로 만들어야 합니다. 다른 사회 집단에 좋은 인상을 남기기 위해 정렬(사회적 정렬)합니다. 또한 샌드박스는 각 사회적 상호 작용 전후에 사회 집단의 반응을 점수화하기 위해 기억 없는 관찰자를 배치했습니다. 점수는 정렬과 참여라는 두 가지 차원을 기반으로 합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

다양한 모델을 사용하여 샌드박스에서 인간 사회 시뮬레이션

저자는 샌드박스 샌드박스를 사용하여 다양한 크기와 다양한 훈련 단계의 언어 모델을 테스트했습니다. 전반적으로 davinci-003, GPT-4 및 ChatGPT와 같은 정렬(소위 "정렬 모델")로 훈련된 모델은 더 적은 수의 상호 작용 라운드에서 사회적으로 규범적인 응답을 생성할 수 있습니다. 즉, 정렬 훈련의 중요성은 특별한 대화 안내가 필요 없이 "기본적인" 시나리오에서 모델을 더 안전하게 만드는 것입니다. 정렬 훈련이 없는 모델은 정렬 및 참여의 전반적인 최적 반응을 달성하기 위해 더 많은 상호 작용이 필요할 뿐만 아니라 이 전체 최적의 상한은 정렬 모델보다 상당히 낮습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

저자는 샌드박스의 과거 데이터로부터 정렬을 학습하는 데 사용되는 Stable Alignment(안정적 정렬)라는 간단하고 쉬운 정렬 알고리즘도 제안합니다. 안정적인 정렬 알고리즘은 각 미니 배치에서 점수 변조 대조 학습을 수행합니다. 응답 점수가 낮을수록 대조 학습의 경계 값이 더 크게 설정됩니다. 즉, 작은 배치의 데이터를 지속적으로 샘플링하여 안정적인 정렬을 수행합니다. , 모델은 높은 점수 응답에 더 가깝고 낮은 점수 응답에 덜 가까운 응답을 생성하도록 권장됩니다. 안정적인 정렬은 결국 SFT 손실로 수렴됩니다. 저자는 또한 안정적인 정렬과 SFT, RLHF의 차이점에 대해서도 논의합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

작가는 특히 샌드박스 게임의 데이터를 강조합니다. 메커니즘 설정으로 인해 많은 양의 데이터가 사회적 가치와 일치하도록 수정되었습니다. 저자는 이렇게 대량의 데이터가 단계별로 개선되는 것이 안정적인 훈련의 핵심임을 Ablation 실험을 통해 증명한다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

저자는 또한 현재 주류 정렬 알고리즘의 성능과 훈련 안정성을 비교하여 안정적인 정렬이 보상 모델링보다 안정적일 뿐만 아니라 전반적인 성능과 정렬도 더 우수하다는 것을 증명했습니다. 성능은 RLHF와 비슷합니다(ChatGPT는 공개되지 않은 모델, 데이터 및 알고리즘을 사용하므로 참조로만 사용됩니다).

인스턴스 생성 결과:

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.