RLHF의 'RL'이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다.-일체 포함-php.cn

최근 대규모 데이터세트로 훈련된 비지도 언어 모델은 놀라운 성능을 달성했습니다. 그러나 이러한 모델은 다양한 목표, 우선 순위 및 기술 세트를 사용하여 인간이 생성한 데이터에 대해 훈련되었으며, 그중 일부는 반드시 모방할 것으로 예상되지는 않습니다.

매우 광범위한 지식과 역량을 바탕으로 모델이 원하는 반응과 행동을 선택하는 것은 안전하고 제어 가능한 고성능 AI 시스템을 구축하는 데 매우 중요합니다. 기존의 많은 방법은 인간이 안전하고 유익하다고 생각하는 행동 유형을 나타내는 신중하게 선별된 인간 선호도 세트를 사용하여 원하는 행동을 언어 모델에 주입합니다. 이 선호도 학습 단계는 대규모의 감독되지 않은 사전 학습 단계 후에 발생합니다. 훈련.

가장 간단한 선호 학습 방법은 인간이 보여준 고품질 반응을 감독하여 미세 조정하는 반면, 최근 비교적 인기 있는 방법은 인간(또는 인공 지능) 피드백을 통한 강화 학습(RLHF/RLAIF)입니다. RLHF 방법은 보상 모델을 인간 선호도 데이터 세트와 일치시킨 다음 RL을 사용하여 언어 모델 정책을 최적화하여 원래 모델에서 과도하게 벗어나지 않고 높은 보상을 할당하는 응답을 생성합니다.

RLHF가 인상적인 대화 및 코딩 기능을 갖춘 모델을 생성하는 반면, RLHF 파이프라인은 여러 언어 모델을 훈련하고 훈련된 루프에서 언어 모델 정책의 샘플링을 포함하는 지도 학습보다 훨씬 더 복잡하므로 많은 계산 비용이 발생합니다.

그리고 최근 연구에 따르면 다음과 같습니다. 기존 방법에서 사용되는 RL 기반 목표는 간단한 이진 교차 엔트로피 목표로 정확하게 최적화될 수 있으므로 선호도 학습 파이프라인이 크게 단순화됩니다. 즉, 명시적인 보상 모델이나 강화 학습 없이 인간의 선호도를 준수하도록 언어 모델을 직접 최적화하는 것이 전적으로 가능합니다.

RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다.

논문 링크: https://arxiv.org/pdf/2305.18290.pdf

스탠포드 대학교 및 기타 기관의 연구원들이 직접 선호 최적화(DPO)를 제안함), 이 알고리즘 기존 RLHF 알고리즘(KL을 통한 보상 최대화 - 발산 제약 조건)과 동일한 목표를 암시적으로 최적화하지만 구현이 간단하고 직접 학습이 가능합니다.

실험에 따르면 DPO는 60억 개의 매개변수 언어 모델을 사용하여 감정 조절, 요약, 대화와 같은 선호도 학습 작업에 사용할 때 PPO 기반 RLHF를 포함한 기존 방법만큼 효과적입니다.

DPO 알고리즘

기존 알고리즘과 마찬가지로 DPO도 이론적 선호 모델(예: Bradley-Terry 모델)을 사용하여 주어진 보상 함수가 경험적 선호 데이터와 얼마나 잘 일치하는지 측정합니다. 그러나 기존 방식에서는 선호 모델을 사용하여 선호 손실을 정의하여 보상 모델을 학습시킨 후 학습된 보상 모델을 최적화하는 정책을 학습하는 반면, DPO는 변수의 변화를 사용하여 선호 손실을 정책의 함수로 직접 정의합니다. 따라서 모델 응답에 대한 인간 선호 데이터 세트가 주어지면 DPO는 교육 중에 정책에서 보상 함수나 샘플을 명시적으로 학습할 필요 없이 간단한 이진 교차 엔트로피 목표를 사용하여 정책을 최적화할 수 있습니다.

DPO의 업데이트는 선호되지 않는 응답에 비해 선호되는 응답의 상대 로그 확률을 증가시키지만 모델 저하를 방지하기 위한 동적 샘플당 중요도 가중치를 포함합니다. 이는 연구원이 순진한 확률 비율 목표에서 발생하는 것으로 나타났습니다.

DPO를 기계적으로 이해하려면 손실 함수의 기울기를 분석하는 것이 유용합니다 RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다. . 매개변수 θ에 대한 기울기는 다음과 같이 쓸 수 있습니다.

RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다.

여기서 RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다. 은 언어 모델 과 참조 모델 에 의해 암시적으로 정의된 보상입니다. 직관적으로 손실 함수의 기울기 는 선호하는 완료 y_w의 가능성을 높이고 선호하지 않는 완료 y_l의 가능성을 줄입니다.

중요한 것은 이 샘플의 가중치가 암시적 보상 모델에 의해 결정된다는 것입니다 RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다. 의 싫어하는 완료도에 대한 평가, β를 척도, 즉 암시적 보상 모델의 완료도 순위입니다. 이는 또한 KL 제약 강도를 반영하는 것이기도 합니다. 실험은 이 가중치의 중요성을 보여줍니다. 가중치 계수가 없는 이 방법의 순진한 버전은 언어 모델의 저하를 초래하기 때문입니다(부록 표 2).

논문 5장에서 연구원은 DPO 방법을 추가로 설명하고 이론적 지원을 제공하며 DPO의 장점을 RLHF에 대한 행위자 평론가 알고리즘(예: PPO)의 문제와 연결합니다. 구체적인 내용은 원본 문서에서 확인하실 수 있습니다.

실험

실험에서 연구원들은 DPO가 선호도에 따라 정책을 직접 교육하는 능력을 평가했습니다.

먼저 잘 제어된 텍스트 생성 환경에서 그들은 다음 질문을 고려했습니다. PPO와 같은 일반적인 선호 학습 알고리즘과 비교하여 DPO는 참조 정책에서 보상 최대화 및 KL-발산 최소화의 효율성을 어떻게 트레이드오프합니까? 그런 다음 요약 및 대화를 포함하여 더 큰 모델과 더 어려운 RLHF 작업에 대한 DPO의 성능을 평가했습니다.

마지막으로 하이퍼파라미터 조정이 거의 없는 경우 DPO가 PPO를 사용하는 RLHF와 같은 강력한 기준과 같거나 더 나은 성능을 발휘하는 동시에 학습된 보상 함수 샘플링 궤적 결과에서 최상의 N을 반환한다는 사실을 발견했습니다.

작업 측면에서 연구원들은 세 가지 개방형 텍스트 생성 작업을 탐색했습니다. 모든 실험에서 알고리즘은 선호도 데이터세트 RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다. 에서 정책을 학습합니다.

통제된 감정 생성에서 x는 IMDb 데이터 세트의 영화 리뷰 접두사이며 정책은 긍정적인 감정으로 y를 생성해야 합니다. 비교 평가를 위해 실험에서는 사전 훈련된 감정 분류기를 사용하여 선호도 쌍을 생성합니다. 여기서 RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다. .

SFT의 경우 연구원들은 IMDB 데이터 세트의 훈련 분할에 대한 의견에 수렴될 때까지 GPT-2-large를 미세 조정했습니다. 요약하면 x는 Reddit의 포럼 게시물이며 전략은 게시물의 핵심 사항에 대한 요약을 생성해야 합니다. 이전 작업을 기반으로 실험에서는 Stiennon et al.이 수집한 Reddit TL;DR 요약 데이터 세트와 인간 선호도를 사용합니다. 또한 실험에서는 사람이 작성한 포럼 기사 요약 2와 RLHF의 TRLX 프레임워크를 기반으로 미세 조정된 SFT 모델을 사용했습니다. 인간 선호도 데이터세트는 Stiennon et al.의 다르지만 유사하게 훈련된 SFT 모델에서 수집한 샘플입니다.

마지막으로, 일대일 대화에서 x는 천체물리학부터 관계 조언까지 무엇이든 될 수 있는 인간의 질문입니다. 정책은 사용자의 쿼리에 흥미롭고 유용한 응답을 제공해야 합니다. 실험에서는 인간과 자동화된 보조자 간의 170,000개 대화가 포함된 Anthropic Helpful and Harmless 대화 세트를 사용합니다. 각 텍스트는 (알 수는 없지만) 대규모 언어 모델에 의해 생성된 한 쌍의 응답과 인간이 선호하는 응답을 나타내는 기본 설정 레이블로 끝납니다. 이 경우 사전 훈련된 SFT 모델을 사용할 수 없습니다. 따라서 SFT 모델을 형성하기 위해 선호하는 완성에서만 기성 언어 모델을 미세 조정하는 실험을 합니다.

연구원들은 두 가지 평가 방법을 사용했습니다. 제한된 보상 최대화 목표를 최적화하는 데 있어 각 알고리즘의 효율성을 분석하기 위해 실험은 제어된 감정 생성 환경에서 참조 전략으로부터 보상 및 KL 발산을 달성하는 범위에 따라 각 알고리즘을 평가합니다. 실험에서는 실측 보상 함수(감정 분류자)를 사용할 수 있으므로 이 경계를 계산할 수 있습니다. 그러나 실제로 Ground Truth 보상 함수는 알려져 있지 않습니다. 따라서 우리는 기본 전략의 승률로 알고리즘의 승률을 평가하고, 요약 및 단일 라운드 대화 설정에서 요약 품질과 응답 유용성에 대한 인간 평가를 위한 프록시로 GPT-4를 사용합니다. 초록의 경우 실험에서는 테스트 시스템의 참조 초록을 대화의 한계로 사용하고 테스트 데이터 세트에서 선호하는 응답을 기준으로 선택합니다. 기존 연구에서는 언어 모델이 기존 측정항목보다 더 나은 자동 평가자가 될 수 있다고 제안하는 반면, 연구진은 GPT-4를 사용하여 인간과 GPT-4의 상관관계를 강력하게 평가하는 타당성을 입증하는 인간 연구를 수행했습니다. 일반적으로 인간 주석자 간의 합의와 유사하거나 더 높습니다.

RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다.

연구원들은 DPO 외에도 인간 선호도에 맞게 기존의 여러 학습 언어 모델을 평가했습니다. 가장 간단한 실험에서는 요약 작업에 대한 GPT-J의 제로샷 프롬프트와 대화 작업에 대한 Pythia-2.8B의 2샷 프롬프트를 탐색합니다. 또한 실험에서는 SFT 모델과 Preferred-FT를 평가합니다. Preferred-FT는 SFT 모델(제어된 감정 및 요약) 또는 일반 언어 모델(단일 회전 대화)에서 선택된 완료 시 지도 학습을 통해 미세 조정된 모델입니다. 또 다른 의사 감독 방법은 Likelihood입니다. 이는 단순히 정책을 최적화하여 y_w에 할당된 확률을 최대화하고 y_l에 할당된 확률을 최소화합니다. 실험에서는 "유사하지 않음"에 선택적 계수 α∈[0,1]을 사용합니다. 그들은 또한 선호도 데이터로부터 학습된 보상 기능을 사용하는 PPO와 PPO-GT를 고려했습니다. PPO-GT는 통제된 감정 설정에서 사용할 수 있는 Ground Truth 보상 기능을 통해 학습된 오라클입니다. 감정 실험에서 팀은 기성 버전과 수정 버전의 두 가지 PPO-GT 구현을 사용했습니다. 후자는 보상을 정규화하고 하이퍼파라미터를 추가로 조정하여 성능을 향상시킵니다(실험에서는 학습 보상과 함께 "일반" PPO를 실행할 때도 이러한 수정 사항을 사용했습니다). 마지막으로 N개의 기준선 중 최고를 고려하고 SFT 모델(또는 대화식 용어로 Preferred-FT)에서 N개의 응답을 샘플링하고 선호도 데이터 세트에서 학습된 보상 함수를 기반으로 가장 높은 점수의 응답을 반환합니다. 이 고성능 접근 방식은 보상 모델 품질을 PPO 최적화에서 분리하지만 테스트 시 쿼리당 N개의 샘플 완료가 필요하므로 보통 N의 경우에도 계산적으로 비실용적입니다.

그림 2는 감정 설정에서 다양한 알고리즘에 대한 보상 KL 경계를 보여줍니다.

RLHF의 RL이 필요합니까? 어떤 사람들은 이진 교차 엔트로피를 사용하여 LLM을 직접 미세 조정하고 효과가 더 좋습니다.