OpenAi의 선호도 미세 조정 (PFT) : LLMS를 사용자 기본 설정과 정렬하는 안내서
선호도 미세 조정 (PFT)은 LLM (Lange Language Models)을 사용자 기본 설정과 정렬하는 강력한 기술입니다. 최근 OpenAI에 의해 도입 된 PFT는 모델 출력을 형성하는 방법으로 감독 된 미세 조정 (SFT) 및 보강재 미세 조정 (RFT)을 보완합니다. 이 기사는 PFT에 대한 간결한 설명을 제공하고 OpenAI의 개발자 대시 보드를 사용하여 응용 프로그램을 보여줍니다.
OpenAi의 PFT 이해
<ft> 주어진 입력에 대한 특정 출력을 생성하는 데 중점을 둔 SFT와 달리 PFT는 바람직하지 않은 응답을 피하면서 선호하는 응답으로 모델을 안내하는 것을 목표로합니다. OpenAI의 PFT의 핵심 기술인 DPO (Direct Preference Optimization)는 간단하면서도 효과적인 정렬 방법입니다. RLHF와 달리 DPO는 보상 모델의 복잡성을 우회하여 손실 함수를 직접 최적화합니다. 이는 구현을 단순화하고 계산 효율성을 향상시킵니다
<o> DPO 데이터 세트는 각 프롬프트에 대한 페어링 된 응답으로 구성됩니다. 하나는 선호하고 하나는 선호되지 않습니다. OpenAi의 PFT의 경우이 데이터 세트는 다음 구조와 함께 JSONL 형식이어야합니다.
<p>
<s> OpenAI는 최적의 정렬을 위해 SFT와 PFT를 결합하는 것이 좋습니다. PFT는 일반적으로 감독 된 데이터 세트에서 초기 SFT 후에 적용됩니다.
<prepar> PFT에 대한 데이터 세트 준비
<ence> 기본 설정 데이터 세트를 작성하면 LLM 출력 쌍 (예 : 다른 온도 설정 사용) 쌍을 생성 한 다음 다른 LLM (이상적으로는 더 강력한 것)을 사용하여 각 쌍이 "선호"및 "예방되지 않은"것으로 표시해야합니다.
이 자습서는 단순화 된 접근법을 사용합니다. 기존 환경 설정 데이터 세트 (예 : 포옹면에서 )를 다운로드하고 파이썬 스크립트를 사용하여 처음 50 행을 재구성합니다. 이 스크립트는 OpenAI의 PFT에 필요한 JSONL 형식으로 데이터 세트를 변환합니다.
</ence></prepar></s></p>
<your> 최종 데이터 세트가 JSONL 형식인지 확인하고 후행 빈 줄을 제거해야합니다. <p>
Openai의 PFT 를 실행합니다
<as> 일단 데이터 세트가 준비되면 :
<p>
<ai> OpenAi 대시 보드에 액세스하십시오
<the> 미세 조정 섹션으로 이동하여 새로운 미세 조정 작업을 시작하십시오.
<prefer> 미세 조정 방법으로 "직접 기본 설정 최적화"를 선택하십시오
<prepared> 준비된 교육 및 검증 데이터 세트를 업로드하십시오 (사용 가능한 경우)
</prepared></prefer></the></ai></p>
<p> </p>
<custom> OpenAi는 과복 미터를 사용자 정의 할 수 있습니다. 그러나 시스템이 최적의 설정을 자동으로 결정할 수 있습니다. 교육 시간은 데이터 세트 크기에 따라 다릅니다
<pre class="brush:php;toolbar:false">{
"input": {
"messages": [
{
"role": "user",
"content": "Prompt text here"
}
],
"tools": [],
"parallel_tool_calls": true
},
"preferred_output": [
{
"role": "assistant",
"content": "Preferred response here"
}
],
"non_preferred_output": [
{
"role": "assistant",
"content": "Non-preferred response here"
}
]
}로그인 후 복사
결론 DPO를 사용하는 Openai의 PFT는 LLM 동작을 정제하고 사용자 기본 설정과 정렬하는 데 유용한 도구를 제공합니다. 지정된 JSONL 형식으로 데이터 세트를 신중하게 준비하면 OpenAI의 인프라를 활용하여보다 맞춤형 및 바람직한 모델 응답 스타일을 달성 할 수 있습니다. SFT 및 RFT를 포함한 OpenAI의 미세 조정 방법에 대한 추가 리소스는 원래 기사의 링크에서 제공됩니다.
위 내용은 Openai의 선호도 미세 조정 : 예제가있는 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!