내 LLM Deep Dive의 2 부에 오신 것을 환영합니다. 파트 1을 읽지 않았다면 먼저 확인하는 것이 좋습니다.
이전에, 우리는 LLM을 훈련시키는 첫 두 가지 주요 단계를 다루었습니다.
사전 훈련-기본 모델을 형성하기 위해 대규모 데이터 세트에서 학습
감독 미세 조정 (SFT)-유용한 예제로 모델을 정제합니다.
이제, 우리는 다음 주요 단계로 다이빙을하고 있습니다 :
강화 학습 (rl) . 사전 훈련 및 SFT는 잘 확립되어 있지만 RL은 여전히 발전하고 있지만 교육 파이프 라인의 중요한 부분이되었습니다.
나는 Andrej Karpathy의 널리 인기있는 3.5 시간 YouTube를 참조했습니다. Andrej는 Openai의 창립 멤버이며 그의 통찰력은 금입니다.
> 가자?
강화 학습 (RL)의 목적은 무엇입니까?
인간과 LLMS는 정보를 다르게 처리합니다. 기본 산술과 같은 우리에게 직관적 인 것은 LLM에 대한 것이 아니며, 이는 텍스트를 토큰 시퀀스로 만 보는 것입니다. 반대로, LLM은 단순히 훈련 중에 충분한 예를 보았 기 때문에 복잡한 주제에 대한 전문가 수준의 응답을 생성 할 수 있습니다.
인식의 차이점은 인간 주석기가 정답을 향해 LLM을 지속적으로 안내하는 "완벽한"레이블 세트를 제공하는 것을 어렵게 만듭니다.
rl 모델이 -
자신의 경험에서 배우도록 함으로써이 간격을 연결합니다.
는 명시 적 레이블에만 의존하는 대신 다른 토큰 시퀀스를 탐색하고 출력이 가장 유용한 피드백 (보상 신호)을 수신합니다. 시간이 지남에 따라 인간 의도에 더 잘 맞는 법을 배웁니다. -
rl
뒤에 직관
llms는 확률 론적입니다. 즉, 응답이 고정되어 있지 않음을 의미합니다. 동일한 프롬프트를 사용하더라도 출력은 확률 분포에서 샘플링되기 때문에 다양합니다.
우리는 수천 또는 수백만의 가능한 응답을 동시에 를 생성 함으로써이 무작위성을 활용할 수 있습니다. 다른 길을 탐색하는 모델로 생각하십시오. 우리의 목표는 더 나은 길을 더 자주 가져 가도록 격려하는 것입니다.
이를 위해, 우리는 더 나은 결과를 초래하는 토큰 시퀀스에 대한 모델을 훈련시킵니다. 인간 전문가가 라벨이 붙은 데이터를 제공하는 감독 된 미세 조정과 달리, 강화 학습은 모델이
자체로부터 배울 수있게 해줍니다.
모델은 어떤 응답이 가장 잘 작동하는지 발견하고 각 교육 단계 후에는 매개 변수를 업데이트합니다. 시간이 지남에 따라, 이것은 미래에 비슷한 프롬프트가 주어지면 고품질 답변을 생성 할 가능성이 더 높아집니다.
그러나 어떤 응답이 가장 좋은지 어떻게 결정합니까? 그리고 우리는 얼마나 많은 RL을해야합니까? 세부 사항은 까다 롭고 올바르게 얻는 것이 사소하지 않습니다. rl은 "신규"가 아닙니다 - 그것은 인간의 전문 지식을 능가 할 수 있습니다 (Alphago, 2016)
RL의 힘의 좋은 예는 Deepmind 's Alphago입니다. 최초의 AI는 프로 고 플레이어를 물리 치고 나중에 인간 수준의 플레이를 능가합니다.
2016 년 자연 논문 (아래 그래프)에서 모델이 순전히 SFT에 의해 교육을 받았을 때 (모델을 모방 할 수있는 좋은 예를 제공 함), 모델은 인적 수준의 성능에 도달 할 수 있었지만 결코 능가 할 수는 없었지만 결코 그것을 능가하지 못했습니다.
점선은 Lee Sedol의 공연을 나타냅니다.
SFT는 혁신이 아닌 복제에 관한 것이기 때문입니다. 모델이 인간의 지식을 넘어 새로운 전략을 발견 할 수는 없습니다.
그러나 RL은 Alphago가 스스로를 대항하고 전략을 개선하고 궁극적으로 인간의 전문 지식을 초과 할 수있게 해주었다.
rl은 AI의 흥미 진진한 프론티어를 나타냅니다. 여기서 모델은 인간의 상상력을 넘어서 전략을 탐색 할 수 있습니다.
rl 기초 요약
일반적인 RL 설정의 주요 구성 요소를 빠르게 요약하겠습니다.
에이전트
- 학습자 또는 의사 결정자. 그것은 현재 상황 ()을 관찰하고, 행동을 선택한 다음 결과를 기반으로 동작을 업데이트합니다 ( 보상 ).
환경 - 에이전트가 작동하는 외부 시스템
상태
- 주어진 단계에서 환경의 스냅 샷 t .
각 타임 스탬프에서 에이전트는 환경에서 환경의 상태를 새로운 환경으로 바꾸는 환경에서
액션
를 수행합니다. 에이전트는 또한 행동이 얼마나 좋든 나쁜지를 나타내는 피드백을 받게됩니다.
이 피드백은 - 보상 라고 불리며 숫자 형태로 표시됩니다. 긍정적 인 보상은 그 행동을 장려하고 부정적인 보상은 그것을 낙담시킵니다.
다른 상태와 행동의 피드백을 사용하여 에이전트는 시간이 지남에 따라 총 보상을 극대화하는 최적의 전략을 점차적으로 배웁니다.
정책
정책은 에이전트의 전략입니다. 에이전트가 좋은 정책을 따르는 경우, 일관되게 좋은 결정을 내리면서 많은 단계에서 더 높은 보상을받을 것입니다. .
수학적 용어에서는 주어진 상태에 대한 다른 출력의 확률을 결정하는 함수입니다 - (πθ (a | s)) .
값 함수
장기 예상 보상을 고려하여 특정 상태에있는 것이 얼마나 좋은지 추정합니다. LLM의 경우 보상은 인간의 피드백 또는 보상 모델에서 나올 수 있습니다.
액터 크리치 아키텍처
는 두 가지 구성 요소를 결합한 인기있는 RL 설정입니다.
액터 - 각 주에서 어떤 조치를 취할 것인지 결정하는 정책 (πθ)를 배우고 업데이트합니다.
비평가 - (v (s))를 평가하여 선택한 행동이 좋은 결과를 가져 오는지에 대한 액자에게 피드백을 제공합니다.
-
<: :> 작동 방식 :
액터 는 현재 정책에 따라 조치를 선택합니다.
비평가 는 결과를 평가하고 (다음 상태) 값 추정치를 업데이트합니다.
비평가의 피드백은 배우가 정책을 개선하여 미래의 행동이 더 높은 보상으로 이어질 수 있도록 도와줍니다.
모든 것을 llms 에 넣습니다
상태는 현재 텍스트 (프롬프트 또는 대화) 일 수 있으며, 그 행동은 다음에 생성 할 토큰이 될 수 있습니다. 보상 모델 (예 : 인간 피드백)은 모델에 생성 된 텍스트가 얼마나 좋든 나쁜지를 알려줍니다.
정책은 다음 토큰을 선택하기위한 모델의 전략이며, 값 함수는 최종 고품질 응답을 생성하는 측면에서 현재 텍스트 컨텍스트가 얼마나 유익한 지 추정합니다.
Deepseek-R1 (2025 년 1 월 22 일 출판)
RL의 중요성을 강조하기 위해 오픈 소스를 유지하면서 최고 수준의 성능을 달성하는 추론 모델 인 DeepSeek-R1을 탐색합시다. 이 논문은 두 가지 모델을 소개했다
Deepseek-R1-Zero는 대규모 RL을 통해서만 훈련을 받았으며 감독 된 미세 조정 (SFT)을 건너 뛰었습니다.
DeepSeek-R1은 그 위에 빌드하여 도전에 직면했습니다
이 핵심 요점 중 일부에 뛰어 들어 봅시다.
1. RL Algo : 그룹 상대 정책 최적화 (GRPO)
중 하나의 주요 게임 변경 RL 알고리즘은 널리 인기있는 근위 정책 최적화 (PPO)의 변형 인 그룹 상대 정책 최적화 (GRPO)입니다. GRPO는 2024 년 2 월에 Deepseekmath 신문에 소개되었습니다.
- 왜 ppo를 통해 GRPO?
-
PPO는 다음과 같은 추론 과제로 어려움을 겪고 있습니다
비평가 모델에 대한 의존성. PPO는 별도의 비평가 모델이 필요하며, 기억력을 두 배로 늘리고 계산합니다. - 비평가는 미묘한 또는 주관적인 작업에 복잡 할 수 있습니다.
RL 파이프 라인이 응답을 평가하고 최적화하기 위해 상당한 자원을 요구하는 높은 계산 비용.
절대 보상 평가
절대 보상에 의존 할 때-답변이 "좋은"또는 "나쁜"인지 판단하기위한 단일 표준 또는 메트릭이 있음을 의미합니다. 다른 추론 영역에서 개방형, 다양한 작업의 뉘앙스를 포착하기가 어려울 수 있습니다.
GRPO가 이러한 도전을 어떻게 해결했는지
-
GRPO는 상대 평가
를 사용하여 비평가 모델을 제거합니다. - 응답은 고정 표준으로 판단되지 않고 그룹 내에서 비교됩니다.
학생들이 문제를 해결하는 것을 상상해보십시오. 교사가 개별적으로 등급을 매기는 대신에 답을 비교하고 서로 학습합니다. 시간이 지남에 따라 성능은 더 높은 품질로 수렴합니다
- GRPO는 전체 교육 과정에 어떻게 적합합니까?
GRPO는 다른 훈련 단계를 변경하지 않고 손실을 계산하는 방법을 수정합니다.
데이터 수집 (쿼리 응답) - LLMS의 경우 쿼리는 질문과 같습니다.
보상 할당 - 그룹의 각 응답은 점수가 매겨집니다 (“보상”).
GRPO 손실 계산 전통적으로, 당신은 손실을 계산할 것입니다 - 모델 예측과 진정한 레이블 사이의 편차를 보여줍니다.
그러나 GRPO에서는 측정 할 수 있습니다. 더 나쁜가? c) 극단적 인 업데이트를 방지하기 위해 클리핑을 적용하십시오. 이것은 스칼라 손실을 산출합니다. .
Back Propagation Gradient Descent
- 후면 전파는 각 매개 변수가 손실에 기여하는 방법을 계산합니다. - 그라디언트 하강은 손실을 줄이기 위해 해당 매개 변수를 업데이트하여 많은 반복에 비해 새로운 정책을 선호하기 위해 새로운 정책을 선호합니다.
새로운 정책과 일치하도록 때때로 이전 정책을 업데이트합니다.
2. 사고 체인 (cot)
전통적인 LLM 교육은 사전 훈련 → SFT → RL에 따릅니다. 그러나 DeepSeek-r1-Zero 는 Sft 를 건너 뛰고 모델이 COT 추론을 직접 탐색 할 수 있도록합니다. 인간처럼 힘든 질문을 통해 생각하는 COT는 모델이 문제를 중간 단계로 나누어 복잡한 추론 능력을 향상시킬 수 있습니다. OpenAi의 O1 모델은 2024 년 9 월 보고서에서 언급 한 바와 같이이를 활용합니다. O1의 성능은 더 많은 RL (Train-Time Compute) 및 더 많은 추론 시간 (테스트 시간 컴퓨팅)으로 향상됩니다.
Deepseek-R1-Zero는 반사 경향을 나타 냈으며, 그 추론을 자율적으로 정제했습니다
논문의 주요 그래프 (아래)는 훈련 중에 사고가 증가하여 더 길고 (더 많은 토큰), 더 상세하고 더 나은 응답으로 이어지는 것으로 나타났습니다.
명시적인 프로그래밍이 없으면 과거의 추론 단계를 다시 방문하여 정확성을 향상 시켰습니다. 이것은 RL 훈련의 출현 속성으로 생각한 추론을 강조합니다. .
모델은 또한“아하 순간”(아래)을 가졌습니다.
참고 : DeepSeek-R1과는 달리 OpenAi는 O1에서 사고의 모든 추론 사슬을 증류 위험에 대해 걱정하고 있는데, 누군가가 그 추론 흔적을 모방하고 단지 모방하여 많은 추론 성과를 회복하려고 시도하는 O1의 사고 체인을 보여주지 않습니다. 대신, O1은 이러한 생각의 사슬에 대한 요약입니다
인간 피드백을 통한 강화 학습 (RLHF)
검증 가능한 출력 (예 : 수학 문제, 사실 Q & A)이있는 작업의 경우 AI 응답을 쉽게 평가할 수 있습니다. 그러나 단일 "올바른"답변이없는 요약 또는 창의적 글쓰기와 같은 영역은 어떻습니까?
이것은 인간의 피드백이 등장하는 곳입니다. 그러나 순진한 rl 접근 방식은 비정상적입니다.
임의의 숫자로 순진한 접근 방식을 살펴 보겠습니다.
그것은 10 억 인간의 평가가 필요합니다! 이것은 너무 비싸고 느리고 비평 할 수 없습니다. 따라서 더 똑똑한 해결책은 AI“보상 모델”을 훈련시키기 위해 인간의 선호도를 배우고 인간의 노력을 극적으로 줄이는 것입니다.
랭킹 응답도 절대 스코어링보다 쉽고 직관적입니다. .
rlhf 의 업시 드
는 창의적인 글쓰기,시, 요약 및 기타 개방형 작업을 포함한 모든 영역에 적용될 수 있습니다.
랭킹 출력은 인간 레이블러가 창의적인 출력 자체를 생성하는 것보다 훨씬 쉽습니다.
rlhf의 다운 사이드 -
보상 모델은 근사치입니다. 인간의 선호도를 완벽하게 반영하지 않을 수 있습니다.
rl은 보상 모델을 게임하는 데 능숙합니다. 너무 오랫동안 실행되면 모델이 허점을 악용하여 여전히 높은 점수를 얻는 무의미한 출력을 생성 할 수 있습니다. - .
rlhf는 전통적인 rl과 동일하지 않다는 점에 유의하십시오.
경험적, 검증 가능한 영역 (예 : 수학, 코딩)의 경우 RL은 무기한으로 실행되고 새로운 전략을 발견 할 수 있습니다. 반면에 RLHF는 모델을 사람의 선호도와 정렬하는 미세 조정 단계와 비슷합니다.
위 내용은 LLMS의 작동 방식 : 강화 학습, RLHF, DeepSeek R1, Openai O1, Alphago의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!