LLM 최적화에 대한 깊은 다이빙 : 정책 기울기에서 GRPO까지-일체 포함-php.cn

LLM 최적화에 대한 깊은 다이빙 : 정책 기울기에서 GRPO까지

William Shakespeare

풀어 주다： 2025-03-04 09:17:15

원래의

489명이 탐색했습니다.

RL (Rensuccement Learning)은 로봇 공학, AI 게임 재생 (Alphago, OpenAi Five) 및 제어 시스템에 혁명을 일으켰습니다. 그 힘은 특히 순차적 추론 작업에서 의사 결정을 최적화하기 위해 장기 보상을 극대화하는 데 있습니다. 초기에 LLM (Large Language Models)은 정적 데이터 세트로 감독 학습에 의존하여 적응력이 부족하고 미묘한 인간 선호도 정렬로 어려움을 겪었습니다. 인간 피드백 (RLHF)을 통한 강화 학습 (RLHF)은 이것을 변경하여 Chatgpt, DeepSeek, Gemini 및 Claude와 같은 모델이 사용자 피드백을 기반으로 응답을 최적화 할 수 있도록했습니다. 그러나 표준 PPO 기반 RLHF는 비효율적이므로 비용이 많이 드는 보상 모델링 및 반복 교육이 필요합니다. DeepSeek의 그룹 상대 정책 최적화 (GRPO)는 우선 순위 순위를 직접 최적화하여 명시적인 보상 모델링이 필요하지 않음을 해결함으로써이를 해결합니다. GRPO의 중요성을 이해하기 위해 기본 정책 최적화 기술을 탐구 할 것입니다. 주요 학습 포인트 이 기사는 다음과 같이 다룰 것입니다 LLM을 최적화하기위한 RL 기반 기술의 중요성 정책 최적화의 기본 사항 : PG, TRPO, PPO, DPO 및 GRPO. rl 및 llm 미세 조정에 대한 이러한 방법을 비교합니다 정책 최적화 알고리즘의 실용적인 파이썬 구현 훈련 손실 곡선 및 확률 분포를 사용한 미세 조정 영향 평가. LLM 안전, 정렬 및 신뢰성을 향상시키기 위해 DPO 및 GRPO를 적용하십시오. 이 기사는 데이터 과학 블로그의 일부입니다. A Deep Dive into LLM Optimization: From Policy Gradient to GRPO

A Deep Dive into LLM Optimization: From Policy Gradient to GRPO

정책 최적화 소개 수학적 기초 정책 그라디언트 (PG) 정책 그라디언트 정리 은 알고리즘 예 를 강화합니다 신뢰 지역 정책 최적화 (TRPO) TRPO 알고리즘 및 주요 개념 TRPO 교육 루프 예 근위 정책 최적화 (PPO) PPO 알고리즘 및 주요 개념 PPO 교육 루프 예 직접 환경 설정 최적화 (dpo) dpo 예 GRPO : DeepSeek의 접근 방식

Grpo 수학적 기초 GRPO 미세 조정 데이터

 GRPO 코드 구현 
<training training> GRPO 교육 루프 
<results results> GRPO 결과 및 분석
LLM 미세 조정에서의 GRPO의 장점 
 결론 
<questions> 자주 묻는 질문 <li>
</li>
<li>  정책 최적화 소개 </li> <into> DeepSeek의 GRPO를 탐구하기 전에 RL의 기본 정책 최적화 기술을 이해하는 것은 전통적인 제어 및 LLM 미세 조정 모두에 중요합니다.  정책 최적화는 AI 에이전트의 의사 결정 전략 (정책)을 개선하여 예상되는 보상을 극대화합니다.  바닐라 정책 그라디언트 (PG)와 같은 초기 방법은 기본적이고 TRPO, PPO, DPO 및 GRPO와 같은보다 진보 된 기술은 안정성, 효율성 및 선호도 정렬을 다루었습니다.
<optim> 정책 최적화 가란 무엇입니까? 
정책 최적화는 장기 보상을 극대화하면서 최적 정책 π_θ (a | s)를 배우고 상태 를 행동 에 매핑하는 것을 목표로합니다. RL 목적 함수는 다음과 같습니다
<h3>  </h3>
 여기서 r (τ)는 궤적 τ의 총 보상이며, 정책 π_θ에 따른 모든 가능한 궤적에 대한 기대치가 있습니다.
<es> 3 가지 주요 접근법이 존재합니다
<p> 1. 그라디언트 기반 최적화 <optim>
<comp> 이러한 방법은 그라디언트 오르막을 사용하여 예상되는 보상 구배 및 정책 매개 변수를 업데이트합니다.  강화 (바닐라 정책 그라디언트)가 예입니다.  그것들은 단순하고 지속적/불연속 조치를 취하지 만 높은 차이로 고통 받고 있습니다. <em>
</em> 2. 신탁 지역 최적화 
<tr>이 방법 (TRPO, PPO)은 안정적이고 덜 과감한 정책 업데이트를위한 제약 조건 (KL 발산)을 소개합니다. TRPO는 신뢰 지역을 사용합니다. PPO는 클리핑으로 이것을 단순화합니다. 그것들은 원시 정책 구배보다 더 안정적이지만 계산적으로 비싸거나 (PPO) 과당에 민감 할 수 있습니다. <em>.
</em> 3. 선호도 기반 최적화 <optim optim>
<d>이 방법 (DPO, GRPO)은 보상 대신 순위가 매겨진 인간 선호도에서 직접 최적화됩니다. DPO는 선호하는 대 거부 된 응답으로부터 배웁니다. GRPO는 그룹에 일반화됩니다. 그들은 보상 모델을 제거하고 LLM을 인간 의도와 더 잘 정렬하지만 고품질 선호도 데이터가 필요합니다. .
<p>  (나머지 섹션은 원래 정보 및 이미지 배치를 유지하는 유사한 재구성 및 구조 조정 패턴을 따릅니다. 원본 텍스트의 길이로 인해 여기에 완전한 다시 작성된 버전을 제공하는 것은 비현실적입니다. 그러나 위의 내용은 나머지 기사를 다시 작성하는 방법을 보여줍니다.)</p></d></optim>
</tr></comp></optim></p></es></optim></into></questions></results></training>

위 내용은 LLM 최적화에 대한 깊은 다이빙 : 정책 기울기에서 GRPO까지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!