ChatGPT의 출현과 그에 따른 광범위한 토론으로 인해 ChatGPT의 성공으로 인해 RLHF, SFT, IFT, CoT 등과 같은 모호한 약어가 대중의 눈에 나타났습니다. 이 모호한 약어는 무엇입니까? 왜 그렇게 중요합니까? 이 기사의 저자는 이러한 주제에 관한 모든 중요한 논문을 검토하고 분류하고 요약했습니다.
ChatGPT는 LM(제1 언어 모델) 기반 대화 에이전트가 아닙니다. 실제로 Meta BlenderBot, Google LaMDA, DeepMind의 Sparrow 및 Anthropic Assistant를 포함하여 많은 기관에서 OpenAI 이전에 언어 모델 대화 에이전트를 출시했습니다. 일부 조직에서는 오픈 소스 챗봇 구축 계획을 발표하고 로드맵을 공개했습니다(예: LAION의 Open-Assistant). 확실히 같은 일을 하는 다른 조직도 있지만 발표되지는 않았습니다.
아래 표는 위에서 언급한 AI 챗봇을 공개 접근 가능 여부, 훈련 데이터, 모델 아키텍처, 평가 세부 사항을 기준으로 비교한 것입니다. ChatGPT에 대한 관련 데이터는 없습니다. 여기에 사용된 정보는 OpenAI의 미세 조정 모델이며 ChatGPT의 기반으로 간주되는 InstructGPT입니다.
학습 데이터, 모델 및 미세 조정에는 많은 차이가 있지만 이러한 챗봇에는 몇 가지 공통점이 있습니다. 즉, 지시를 따릅니다. 즉, 사용자의 지시에 따라 응답합니다. 예를 들어, ChatGPT에게 넛지에 관한 시를 써 달라고 요청하세요.
일반적으로 말해서 모델이 사용자의 지시를 효율적으로 따르기에는 기본 언어 모델링의 목표로는 충분하지 않습니다. 모델 작성자는 또한 IFT(Instruction Fine-Tuning)를 사용합니다. 이는 다양한 작업에 대해 기본 모델을 미세 조정할 수 있으며 감정 분석, 텍스트 분류, 요약과 같은 전통적인 NLP 작업에도 적용할 수 있습니다.
IFT는 크게 명령어, 입력, 출력의 세 부분으로 구성됩니다. 입력은 선택 사항이며 일부 작업에는 위의 ChatGPT 예와 같이 지침만 필요합니다. 입력과 출력이 인스턴스를 구성합니다. 특정 명령어에는 여러 개의 입력과 출력이 있을 수 있습니다. 관련 사례는 다음과 같다([Wang et al., ‘22]).
IFT 데이터는 일반적으로 인간 지침과 언어 모델을 사용하여 부트스트랩됩니다. 부트스트래핑의 경우 LM은 샘플이 없는 프롬프트를 기반으로 새로운 지침, 입력 및 출력을 생성합니다. 각 라운드마다 모델을 작성하고 생성하는 사람 중에서 선택한 샘플이 모델에 표시됩니다. 데이터 세트에 대한 인간과 모델의 기여도는 아래 그림과 같이 스펙트럼으로 표현될 수 있습니다.
하나는 부자연스러운 지침과 같이 순수하게 모델에서 생성된 IFT 데이터 세트이고, 다른 하나는 커뮤니티의 노력과 슈퍼 내추럴 지침과 같이 수동으로 생성된 지침의 모음입니다. 그 사이에 고품질 시드 데이터 세트를 선택한 다음 Self-instruct와 같은 부트스트랩을 선택합니다. IFT용 데이터 세트를 수집하는 또 다른 방법은 다양한 작업(프롬프트 포함)에 대해 기존의 고품질 크라우드소싱 NLP 데이터 세트를 사용하고 이러한 데이터 세트를 통합 패턴 또는 다른 템플릿을 사용하여 지침으로 사용하는 것입니다. 관련 작업에는 T0, 자연 지침 데이터 세트, FLAN LM 및 OPT가 포함됩니다. -IML.
LM 미세 조정된 지침을 사용한다고 해서 항상 유용하고 안전한 응답이 생성되는 것은 아닙니다. 이러한 동작의 예로는 잘못된 응답(속임수), 항상 "죄송합니다. 이해가 안 됩니다"와 같은 잘못된 응답을 제공하거나 민감한 주제에 대한 사용자 입력에 안전하지 않게 응답하는 등이 있습니다.
이 문제를 해결하기 위해 모델 개발자는 SFT(감독 미세 조정)를 사용하여 사람이 레이블을 지정한 고품질 데이터에 대한 기본 언어 모델을 미세 조정하여 효과적이고 안전한 응답을 얻습니다.
SFT와 IFT는 밀접하게 연결되어 있습니다. 명령어 조정은 감독된 미세 조정의 하위 집합으로 볼 수 있습니다. 최근 문헌에서 SFT 단계는 일반적으로 IFT를 따르는 교육별 주제보다는 안전 주제에 사용됩니다. 이 분류와 설명은 앞으로 더 명확한 사용 사례와 방법을 갖게 될 것입니다.
Google의 LaMDA는 일련의 규칙에 따라 안전하게 주석이 달린 대화 데이터 세트를 미세 조정합니다. 이러한 규칙은 일반적으로 모델 작성자가 미리 정의하고 제정하며 유해성, 차별, 잘못된 정보 등 광범위한 주제를 다룹니다.
반면 OpenAI의 InstructGPT, DeepMind의 Sparrow 및 Anthropic의 ConstitutionalAI는 모두 인간 피드백(RLHF) 기술의 강화 학습을 사용합니다. RLHF에서 모델 응답은 인간 피드백(예: 더 나은 답변 선택)을 기반으로 순위가 매겨지고, 모델은 이러한 주석이 달린 응답으로 훈련되어 스칼라 보상을 RL 최적화 프로그램에 반환하고, 마지막으로 대화형 에이전트가 강화 학습을 통해 훈련되어 시뮬레이션됩니다. 선호 모델.
CoT(Chain-of-thought)는 대화형 에이전트에서 단계별 추론을 도출하여 출력을 생성하는 특수한 명령 시연 사례입니다. CoT로 미세 조정된 모델은 단계별 추론을 통해 사람이 주석을 추가한 지침의 데이터 세트를 사용합니다. 아래 예에서 볼 수 있듯이 주황색 마커는 명령을 나타내고, 분홍색 마커는 입력 및 출력을 나타내고, 파란색 마커는 CoT 추론을 나타냅니다.
CoT로 미세 조정된 모델은 상식, 산술, 상징적 추론과 관련된 작업에서 더 나은 성능을 발휘합니다. CoT를 사용한 미세 조정은 무해성을 달성하는 데 매우 효과적인 것으로 나타났으며(때로는 RLHF보다 우수함) 모델은 "죄송합니다. 이 질문에 답변할 수 없습니다" 응답을 생성하는 데 주저하지 않습니다.
이 글의 주요 내용을 요약하면 다음과 같습니다.
1 사전 학습 데이터와 비교하면 데이터의 아주 작은 부분만 있습니다. 지침을 미세 조정하는 데 필요합니다.
2. 감독된 미세 조정은 수동 주석을 사용하여 모델 출력을 더욱 안전하고 유용하게 만듭니다.
3. CoT 미세 조정은 단계별 사고 작업에서 모델의 성능을 향상하고 민감한 주제에 대한 잘못된 응답이나 회피를 줄입니다.
마지막으로 저자는 향후 대화 에이전트 개발에 대한 자신의 생각을 제시했습니다.
1. 인간의 피드백을 통해 학습하는 데 RL이 얼마나 중요합니까? IFT나 SFT에서 고품질 데이터를 훈련하면 RLHF와 동일한 성능을 얻을 수 있나요?
2. LaMDA에서 SFT를 사용하는 것과 비교하여 Sparrow에서 SFT+RLHF를 사용하는 것이 얼마나 안전한가요?
3. IFT, SFT, CoT 및 RLHF에는 어떤 수준의 사전 교육이 필요합니까? 트레이드오프란 무엇입니까? 사용해야 하는 가장 좋은 기본 모델은 무엇입니까?
4. 이 기사에 소개된 모델 중 다수는 신중하게 설계되었으며, 엔지니어는 처리된 문제를 기반으로 실패로 이어지는 패턴(프롬프트 및 방법)을 구체적으로 수집합니다. 이러한 방법의 효과를 어떻게 체계적으로 문서화하고 재현할 수 있습니까?
위 내용은 이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!