> 기술 주변기기 > 일체 포함 > LLM을'생각”하도록 훈련시키는 방법 (O1 & Deepseek-R1)

LLM을'생각”하도록 훈련시키는 방법 (O1 & Deepseek-R1)

Patricia Arquette
풀어 주다: 2025-03-04 10:37:11
원래의
286명이 탐색했습니다.

2024 년 9 월에 공개 된 Openai의 O1 모델은 대규모 강화 학습을 통해 "고급 추론"기능을 선보였습니다. AI Research Lab 인 DeepSeek는이 행동을 성공적으로 복제하고 방법론을 공개적으로 발표했습니다. 이 기사는이 돌파구의 핵심 개념과 기본 메커니즘을 탐구합니다. OpenAi의 O1 모델은 "사고"토큰을 소개하여 LLM (Lange Language Model) 교육을 혁신했습니다. 이 특수 토큰은 스크래치 패드 역할을하여 모델이 문제와 사용자 쿼리를 체계적으로 처리 할 수 ​​있습니다. 주요 결과는 테스트 시간 컴퓨팅 증가로 인한 성능 향상이었습니다. 더 많은 토큰은 더 나은 응답과 동일합니다. 다음 그래프 (OpenAi의 블로그에서)는 다음을 보여줍니다

왼쪽 플롯은 더 긴 훈련 (열차 시간 컴퓨팅)이 성능을 향상시키는 확립 된 신경 스케일링 법칙을 보여줍니다. 올바른 플롯은 새로운 스케일링 법칙을 보여줍니다. 추론 중 (테스트 시간 컴퓨팅)가 성능을 향상시킵니다.

사고 토큰

How to Train LLMs to “Think” (o1 & DeepSeek-R1) o1의"사고 "토큰은 모델의 사고 체인 (COT) 추론을 구분합니다. 그들의 중요성은 두 가지입니다. 그들은 UI 개발에 대한 추론 과정을 명확하게 설명하고 모델의 사고 과정에 대한 인간이 읽을 수있는 기록을 제공합니다. OpenAi는 훈련 세부 사항을 기밀로 유지했지만 DeepSeek의 연구는 이에 대한 빛을 비추고 있습니다.

Deepseek의 연구

How to Train LLMs to “Think” (o1 & DeepSeek-R1) Deepseek의 2025 년 1 월 간행물 인 " Deepseek-R1 : 강화 학습

"를 통한 LLM의 인센티브 화 능력을 인센티브하는 인센티브 화 능력은 O1 모델의 비밀을 공개했습니다. 그들은 DeepSeek-R1-Zero (강화 학습에만 훈련)와 DeepSeek-R1 (감독 된 미세 조정 (SFT) 및 RL의 혼합물을 도입했습니다. R1-Zero는 R1에 대한 교육 데이터를 생성하고 명시 적으로 프로그래밍되지 않은 출현 추론 능력을 보여주기 때문에 중요합니다. r1-zero 발견 된 COT 및 RL 단독을 통한 테스트 시간 컴퓨팅 스케일링.

DeepSeek-R1-Zero (rl 만 해당) RL (Rencement Learning)을 통해 모델은 시행 착오를 통해 학습 할 수 있으며, 모델 매개 변수와 명시적인 기능적 관계없이 보상 신호를받을 수 있습니다. R1-Zero의 훈련의 세 가지 주요 측면이 강조 표시됩니다 :

프롬프트 템플릿 : 간단한 템플릿은

및 태그를 사용하여 모델의 응답을 구조화합니다.

최소한의 프롬프트는 편견 반응을 피하고 RL 동안 자연스러운 진화를 허용합니다.

  1. 보상 신호 : 규칙 기반 시스템은 정확도와 서식을 평가하여 잠재적 인 "보상 해킹"문제를 피하십시오. 종종 신경 보상 모델과 관련된 문제. GRPO (Group Relative Policy Optimization) : 이 RL 접근 방식은 안정적인 교육을 위해 클리핑 및 KL 디버 겐 규칙화를 통합하여 모델 매개 변수를 업데이트하는 데 응답을 집계합니다. 손실 함수는 다음과 같습니다.

  2. r1-zero 결과 (출현 능력) 놀랍게도, R1-Zero는 암시 적으로 테스트 시간 계산을 통해 반응을 개선하는 법을 배웠으며 종종 검증 단계를 포함하여 인간과 같은 내부 독백을 나타 냈습니다. 예제는 원본 기사에 제공됩니다.

  3. Deepseek-R1 (Sft Rl)

    DeepSeek-R1은 SFT와 RL을 결합한 4 단계 교육 프로세스를 통해 R1-Zero의 가독성 문제를 해결합니다. How to Train LLMs to “Think” (o1 & DeepSeek-R1)

    추론 데이터가 포함 된 SFT : 초기 SFT는 수천 개의 긴 침대 예제를 사용하여 추론 프레임 워크를 설정합니다.

    r1-Zero 스타일 RL (언어 일관성 보상) :

    혼합 데이터가 포함 된 SFT : 모델의 기능을 넓히기 위해 추론 및 비 계급 데이터가 포함 된 SFT.

    rl rlhf :

    최종 RL 교육은 추론 교육과 도움과 무해함을 향상시키기위한 RLHF를 포함합니다.

    R1-Zero 및 r1

액세스 DeepSeek은 모델 가중치를 공개적으로 제공하여 다양한 추론 제공 업체 및 로컬 배치 (DeepSeek, 함께, 쌍곡선, Ollama, 포옹 얼굴)를 통한 액세스를 허용합니다. 결론
  1. O1은 LLM 개선을위한 새로운 차원으로 테스트 시간 컴퓨팅을 도입했습니다. DeepSeek의 복제 및 공개 간행물은 강화 학습이 기존의 인간 지식 한계를 능가하는 모델을 독립적으로 생성 할 수 있음을 보여줍니다. 이것은 미래의 과학 및 기술 발전을위한 흥미로운 가능성을 열어줍니다.

    [참고 : 외부 리소스에 대한 링크는 해당 내용과 관련이 없으며 프로모션으로 간주 될 수 있으므로 생략되었습니다.] .

위 내용은 LLM을'생각”하도록 훈련시키는 방법 (O1 & Deepseek-R1)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿