ChatGPT/InstructGPT 자세한 설명-일체 포함-php.cn

GPT 시리즈는 OpenAI의 사전 학습 기사 시리즈입니다. GPT의 전체 이름은 이름에서 알 수 있듯이 Transformer를 기본 모델로 사용하고 사전 학습을 사용하는 것입니다. - 보편적인 텍스트 모델을 얻기 위한 훈련 기술. 지금까지 발표된 논문으로는 텍스트 사전 훈련 GPT-1, GPT-2, GPT-3, 이미지 사전 훈련 iGPT 등이 있습니다. 아직 출시되지 않은 GPT-4는 멀티모달 모델이라는 소문이 돌고 있다. 최근 매우 인기 있는 ChatGPT와 올해 초에 발표된 [1]은 한 쌍의 자매 모델로 GPT-4 이전에 출시된 예열 모델이며 때로는 GPT3.5라고도 합니다. ChatGPT와 InstructGPT는 모델 구조와 훈련 방법 측면에서 완전히 일치합니다. 즉, 둘 다 모델 훈련을 안내하기 위해 지침 학습(Instruction Learning)과 인간 피드백의 강화 학습(RLHF)을 사용합니다. 데이터 수집 방식에는 차이가 있습니다. 따라서 ChatGPT를 이해하려면 먼저 InstructGPT를 이해해야 합니다.

1. 배경 지식

ChatGPT/InstructGPT를 소개하기 전에 먼저 그들이 의존하는 기본 알고리즘을 소개합니다.

1.1 GPT 시리즈

텍스트 사전 학습을 기반으로 하는 GPT-1[2], GPT-2[3], GPT-3[4]의 3세대 모델은 모두 Transformer를 핵심 구조로 사용합니다(그림 1 ) 차이점은 모델의 레이어 수와 단어 벡터의 길이 및 기타 하이퍼 매개변수에 대한 구체적인 내용이 표 1에 나와 있습니다.

ChatGPT/InstructGPT 자세한 설명

그림 1: GPT 시리즈의 모델 구조(여기서 Trm은 Transformer 구조)

표 1: 이전 세대 GPT의 릴리스 시간, 매개변수 양 및 훈련 양

Model	릴리스 시간	레이어 수	헤드 수	워드 벡터 길이	매개변수 양	사전 훈련 데이터의 양
GPT- 1	2018년 6월	12	12	768	1억 1700만	약 5GB
GPT-2	2019년 2월	48	-	1600	15억	40GB
GPT-3	2020년 5월	96	96	12888	1,750억	45TB

GPT-1은 BERT보다 몇 달 일찍 태어났습니다. 이들은 모두 Transformer를 핵심 구조로 사용합니다. 차이점은 GPT-1이 생성적으로 왼쪽에서 오른쪽으로 사전 학습 작업을 구축한 다음 BERT와 같은 다운스트림 작업에 사용할 수 있다는 것입니다. . GPT-1은 당시 9개 NLP 작업에서 SOTA 결과를 달성했지만, GPT-1에서 사용하는 모델 크기와 데이터 양이 상대적으로 적어 GPT-2가 탄생하게 되었습니다.

GPT-1과 비교하여 GPT-2는 모델 구조에 큰 소란을 피우지 않고 더 많은 매개변수와 더 많은 훈련 데이터를 갖춘 모델만 사용했습니다(표 1). GPT-2의 가장 중요한 아이디어는 "모든 지도 학습은 비지도 언어 모델의 하위 집합이다"라는 아이디어입니다. 이 아이디어는 프롬프트 학습의 전신이기도 합니다. GPT-2도 처음 탄생했을 때 많은 센세이션을 일으켰다. 그것이 만들어낸 뉴스는 대부분의 인간을 속이고 진짜인 척하는 효과를 얻기에 충분했다. 당시에는 'AI 세계에서 가장 위험한 무기'라고도 불렸으며, 많은 포털에서는 GPT-2가 생성한 뉴스의 사용을 금지하라는 명령이 내려졌다.

GPT-3가 제안되었을 때 GPT-2를 훨씬 능가하는 효과와 더불어 더 많은 논의를 불러일으킨 것은 1,750억 개의 매개변수 수였습니다. 연구원들은 GPT-3가 일반적인 NLP 작업을 완료할 수 있을 뿐만 아니라 SQL 및 JavaScript와 같은 언어로 코드를 작성하고 간단한 수학 연산을 수행하는 데에도 GPT-3가 좋은 성능을 발휘한다는 사실을 예기치 않게 발견했습니다. GPT-3의 훈련은 메타러닝의 일종인 인컨텍스트 학습(In-Context Learning)을 사용한다. 제한된 데이터 세트에 적합하고 좋은 결과를 얻습니다.

위의 분석을 통해 성능 관점에서 GPT에는 두 가지 목표가 있음을 알 수 있습니다.

일반적인 NLP 작업에서 모델 성능을 향상합니다.
다른 비정형 NLP 작업(예: 코드)에서 모델 성능을 향상합니다. 쓰기), 수학 연산에 대한 일반화 능력).

또한, 사전 훈련된 모델이 탄생한 이후로 비판을 받아온 문제는 사전 훈련된 모델의 편향입니다. 사전 훈련된 모델은 방대한 데이터를 통해 매우 큰 매개변수 수준을 가진 모델을 훈련하기 때문에, 인위적인 규칙에 의해 완전히 제어되는 전문가 시스템에 비해 사전 훈련된 모델은 블랙박스와 같습니다. 사전 훈련된 모델이 인종차별, 성차별 등을 포함하는 위험한 콘텐츠를 생성하지 않을 것이라고 누구도 보장할 수 없습니다. 왜냐하면 수십 기가바이트 또는 심지어 수십 테라바이트에 달하는 훈련 데이터에는 거의 확실히 유사한 훈련 샘플이 포함되어 있기 때문입니다. 이것이 InstructGPT 및 ChatGPT의 동기입니다. 이 문서에서는 3H를 사용하여 최적화 목표를 요약합니다.

유용함(유용함)
신뢰할 수 있음(정직함);
OpenAI의 GPT 시리즈 모델은 오픈 소스가 아니지만 모델에 대한 평가판 웹사이트를 제공하고 자격을 갖춘 학생들이 직접 사용해 볼 수 있습니다.

1.2 지시 학습(Instruct Learning) 및 프롬프트 학습(Prompt Learning) 학습

지시 학습은 Google Deepmind의 Quoc V.Le 팀이 2021년에 발표한 "Finetuned Language Models Are Zero-Shot Learners"라는 제목의 기사입니다. [5] 아이디어 제시 기사에서. 교수 학습과 신속한 학습의 목적은 언어 모델 자체에 대한 지식을 활용하는 것입니다. 차이점은 Prompt는 문장의 앞부분을 기반으로 문장의 뒷부분을 생성하거나 클로즈 채우기 등 언어 모델의 완성 능력을 자극한다는 것입니다. Instruct는 보다 명확한 지시를 통해 모델이 올바른 조치를 취할 수 있도록 하여 언어 모델의 이해 능력을 자극합니다. 우리는 다음 예를 통해 이 두 가지 다른 학습 방법을 이해할 수 있습니다.

학습 팁: 여자 친구를 위해 이 목걸이를 샀는데, 여자 친구가 아주 좋아합니다. 이 목걸이는 너무 ____입니다.

학습 지침: 이 문장의 감정을 결정하세요. 여자 친구를 위해 이 목걸이를 샀는데 그녀가 매우 좋아합니다. 옵션: A=좋음, B=평균, C=나쁨.
단서 학습의 장점은 여러 작업을 미세 조정한 후 다른 작업에도 제로 샷을 수행할 수 있다는 점입니다. 반면 단서 학습은 모두 하나의 작업을 목표로 합니다. 일반화 능력은 지시된 학습보다 열등합니다. 그림 2를 통해 미세 조정, 단서 학습, 지시 학습을 이해할 수 있습니다.

ChatGPT/InstructGPT 자세한 설명 그림 2: 모델 미세 조정, 신속한 학습, 지시 학습 간의 유사점과 차이점

1.3 인공 피드백을 통한 강화 학습

훈련된 모델은 제어하기가 어렵기 때문에 모델은 훈련 세트의 분포에 적합한 것으로 간주할 수 있습니다. 그런 다음 생성 모델에 다시 피드백할 때 훈련 데이터의 분포는 생성된 콘텐츠의 품질에 영향을 미치는 가장 중요한 요소입니다. 때때로 우리는 생성된 데이터의 유용성, 신뢰성 및 무해성을 보장하기 위해 모델이 훈련 데이터의 영향을 받을 뿐만 아니라 인위적으로 제어할 수도 있기를 바랍니다. 정렬 문제는 논문에서 여러 번 언급되는데, 우리는 이를 모델의 출력 내용과 인간이 좋아하는 출력 내용의 정렬로 이해할 수 있습니다. 인간이 좋아하는 것은 생성된 콘텐츠의 유창성과 문법적 정확성뿐만 아니라 생성된 콘텐츠의 품질도 중요합니다. 유용성, 진정성, 무해성.

우리는 강화학습이 보상(Reward) 메커니즘을 통해 모델 훈련을 안내한다는 것을 알고 있습니다. 보상 메커니즘은 전통적인 모델 훈련 메커니즘의 손실 함수로 간주될 수 있습니다. 보상 계산은 손실 함수보다 더 유연하고 다양합니다(AlphaGO의 보상은 게임의 결과입니다). 이에 대한 비용은 보상 계산이 미분 불가능하므로 역전파에 직접 사용할 수 없다는 것입니다. 강화 학습의 아이디어는 모델 훈련을 달성하기 위해 다수의 보상 샘플을 통해 손실 함수를 맞추는 것입니다. 마찬가지로 인간의 피드백도 파생 불가능하므로 인위적인 피드백을 강화학습에 대한 보상으로 사용할 수도 있으며, 시대가 요구하는 대로 인위적인 피드백을 기반으로 한 강화학습이 등장했습니다.

RLHF는 2017년 Google에서 게시한 "Deep Reinforcement Learning from Human Preferences"[6]에서 추적할 수 있습니다. 수동 주석을 피드백으로 사용하여 시뮬레이션된 로봇 및 Atari 게임에서 강화 학습 성능을 향상합니다.

ChatGPT/InstructGPT 자세한 설명

그림 3: 인공 피드백을 사용한 강화 학습의 기본 원리

InstructGPT/ChatGPT는 또한 강화 학습의 고전적인 알고리즘인 OpenAI가 제안한 최근 PPO(Proximal Policy Optimization)를 사용합니다[7]. PPO 알고리즘은 새로운 유형의 Policy Gradient 알고리즘입니다. Policy Gradient 알고리즘은 단계 크기에 매우 민감하지만 훈련 과정에서 이전 정책과 새 정책 간의 변경 차이가 있으면 적절한 단계 크기를 선택하기가 어렵습니다. 너무 크면 학습에 해로울 수 있습니다. PPO는 여러 훈련 단계에서 작은 배치 업데이트를 달성할 수 있는 새로운 목적 함수를 제안하여 정책 기울기 알고리즘에서 단계 크기를 결정하기 어려운 문제를 해결했습니다. 사실 TRPO도 이 아이디어를 해결하기 위해 설계되었지만 TRPO 알고리즘에 비해 PPO 알고리즘이 더 쉽게 해결됩니다.

2. InstructGPT/ChatGPT 원칙 해석

위의 기본 지식을 통해 InstructGPT 및 ChatGPT를 훨씬 쉽게 이해할 수 있습니다. 간단히 말해서 InstructGPT/ChatGPT는 모두 GPT-3의 네트워크 구조를 채택하고 지시 학습을 통해 훈련 샘플을 구성하여 예측 콘텐츠의 효과를 반영하는 보상 모델(RM)을 훈련합니다. 마지막으로 이 보상 모델의 점수는 다음과 같습니다. 강화 학습 모델을 안내하는 데 사용됩니다. InstructGPT/ChatGPT의 훈련 과정은 그림 4에 나와 있습니다.

ChatGPT/InstructGPT 자세한 설명

그림 4: InstructGPT 계산 프로세스: (1) 감독된 미세 조정(SFT), (2) 보상 모델(RM) 교육, (3) PPO를 통한 보상 모델 기반 강화 학습.

그림 4에서 InstructGPT/ChatGPT의 훈련은 3단계로 나눌 수 있으며, 그 중 2단계와 3단계는 보상 모델과 반복적으로 최적화할 수 있는 강화 학습 SFT 모델입니다.

수집된 SFT 데이터 세트를 기반으로 GPT-3의 감독 미세 조정(Supervised FineTune, SFT)을 수행합니다.
수동으로 레이블이 지정된 비교 데이터를 수집하고 보상 모델(Reword Model, RM)을 교육합니다. 강화 학습 최적화 목표, PPO 알고리즘을 사용하여 SFT 모델을 미세 조정합니다.
그림 4에 따르면 InstructGPT/ChatGPT의 데이터 세트 수집과 모델 훈련의 두 가지 측면을 각각 소개합니다.

2.1 데이터 세트 수집

그림 4와 같이 InstructGPT/ChatGPT의 학습은 3단계로 나누어지며, 각 단계에 필요한 데이터는 조금씩 다릅니다. 아래에서 별도로 소개하겠습니다.

2.1.1 SFT 데이터 세트

SFT 데이터 세트는 첫 번째 단계에서 지도 모델을 교육하는 데 사용됩니다. 즉, 수집된 새로운 데이터를 사용하여 GPT-3 교육 방법에 따라 GPT-3을 미세 조정합니다. GPT-3는 프롬프트 학습을 기반으로 한 생성 모델이므로 SFT 데이터 세트도 프롬프트-응답 쌍으로 구성된 샘플입니다. SFT 데이터의 일부는 OpenAI의 PlayGround 사용자로부터 제공되고, 다른 일부는 OpenAI에 고용된 40명의 라벨러로부터 제공됩니다. 그리고 그들은 라벨러를 훈련시켰습니다. 이 데이터 세트에서 주석 작성자의 임무는 콘텐츠를 기반으로 지침을 작성하는 것이며 지침은 다음 세 가지 사항을 충족해야 합니다.

간단한 작업: 라벨러는 작업의 다양성을 보장하면서 간단한 작업을 제공합니다.
Few-shot 작업: 라벨러는 명령과 여러 쿼리 대응 명령 쌍을 제공합니다. 그런 다음 라벨러가 이러한 사용 사례를 기반으로 지침을 작성하도록 합니다.
2.1.2 RM 데이터 세트

RM 데이터 세트는 2단계에서 보상 모델을 훈련하는 데 사용됩니다. 또한 InstructGPT/ChatGPT 훈련을 위한 보상 목표를 설정해야 합니다. 이 보상 목표는 차별화 가능해야 할 필요는 없지만, 모델이 생성해야 하는 것과 최대한 포괄적이고 현실적으로 일치해야 합니다. 당연히 수동 주석을 통해 이러한 보상을 제공할 수 있으며, 인간이 좋아하지 않는 콘텐츠를 생성하지 않도록 모델이 편향과 관련된 생성된 콘텐츠에 낮은 점수를 부여할 수 있습니다. InstructGPT/ChatGPT의 접근 방식은 먼저 모델이 후보 텍스트 배치를 생성하도록 한 다음 라벨러를 사용하여 생성된 데이터의 품질에 따라 생성된 콘텐츠를 정렬하는 것입니다.

2.1.3 PPO 데이터 세트

InstructGPT의 PPO 데이터는 주석이 추가되지 않으며 GPT-3 API 사용자로부터 제공됩니다. 다양한 사용자가 제공하는 다양한 유형의 생성 작업이 있으며 생성 작업(45.6%), QA(12.4%), 브레인스토밍(11.2%), 대화(8.4%) 등을 포함하는 비율이 가장 높습니다.

2.1.4 데이터 분석

InstructGPT/ChatGPT는 GPT-3을 기반으로 미세 조정되고 수동 주석이 포함되므로 전체 데이터 양이 크지 않습니다. 표 2는 세 가지 데이터의 소스와 그들의 데이터 양.

ChatGPT/InstructGPT 자세한 설명 표 2: InstructGPT의 데이터 분포

문서의 부록 A에서는 데이터 분포에 대해 더 자세히 설명합니다. 여기에는 모델 효과에 영향을 미칠 수 있는 몇 가지 항목이 나열되어 있습니다.

데이터의 96% 위는 영어이고 중국어, 프랑스어, 스페인어 등 다른 20개 언어를 합산하면 4% 미만이 됩니다. 이로 인해 InstructGPT/ChatGPT가 다른 언어를 생성할 수는 있지만 효과는 훨씬 적습니다.

9가지 유형의 프롬프트가 있으며 대부분이 생성 작업이므로 모델에서 다루지 않는 작업 유형이 발생할 수 있습니다.
40명의 아웃소싱 직원은 미국 및 동남아시아 출신입니다. InstructGPT/ChatGPT의 목표는 상대적으로 집중된 분포와 소수의 인원으로 가치를 훈련하는 것입니다. 올바른 사전 훈련된 모델의 경우 해당 값은 이러한 40명의 아웃소싱 직원의 가치로 구성됩니다. 그리고 상대적으로 좁은 분포는 다른 지역이 더 우려하는 차별과 편견 문제를 야기할 수 있습니다.
또한 ChatGPT 블로그에서는 ChatGPT와 InstructGPT의 훈련 방법이 동일하다고 언급했지만 유일한 차이점은 데이터를 수집하지만 데이터 수집 세부 사항에 대한 정보는 더 이상 없습니다. ChatGPT가 대화 분야에서만 사용된다는 점을 고려하면 ChatGPT는 데이터 수집에 있어 두 가지 차이점이 있는 것 같습니다. 1. 대화 작업의 비율을 높입니다. 2. 프롬프트 방식을 Q&A 방식으로 전환합니다. 물론 이는 추측일 뿐이며, ChatGPT의 논문이나 소스코드 등 보다 자세한 정보가 공개되기 전까지는 더 정확한 설명은 알 수 없습니다.

2.2 훈련 과제

InstructGPT/ChatGPT에는 3단계 훈련 방법이 있다는 것을 방금 소개했습니다. 이 세 가지 교육 단계에는 SFT, RM 및 PPO의 세 가지 모델이 포함됩니다. 아래에서 자세히 소개하겠습니다.

2.2.1 감독된 미세 조정(SFT)

이 단계의 훈련은 GPT-3과 일치하며, 저자는 모델이 적절하게 과적합되도록 허용하면 다음 두 단계의 훈련에 도움이 된다는 것을 발견했습니다.

2.2.2 보상 모델(RM)

RM 훈련을 위한 데이터는 생성된 결과에 따라 정렬된 라벨러 형태이므로 회귀 모델이라고 볼 수 있습니다. RM 구조는 SFT 학습 모델의 최종 임베딩 레이어를 제거하는 모델입니다. 입력은 프롬프트와 응답이며 출력은 보상 값입니다. 구체적으로 각 프롬프트에 대해 InstructGPT/ChatGPT는 K개의 출력(4≤K≤9)을 무작위로 생성한 다음 출력 결과를 각 라벨러에 쌍으로 표시합니다. 즉, 각 프롬프트는 총 CK2 결과를 표시합니다. 그 중에서 더 나은 출력을 선택합니다. 훈련 중에 InstructGPT/ChatGPT는 각 프롬프트의 CK2 응답 쌍을 배치로 처리합니다. 이 프롬프트별 일괄 처리 훈련 방법은 샘플별 일괄 처리의 기존 방법보다 과대적합될 가능성이 적습니다. 왜냐하면 이 방법은 각 프롬프트가 모델에 입력되기 때문입니다. 한 번만.

보상 모델의 손실 함수는 수학식 1로 표현됩니다. 이 손실 함수의 목표는 라벨러가 선호하는 응답과 싫어하는 응답 간의 차이를 최대화하는 것입니다.

(1)손실⁡(θ)=−1(K2)E(x,yw,yl)∼D[log⁡(σ(rθ(x,yw)−rθ(x,yl)))]

여기서 rθ(x,y)는 매개변수 θ가 있는 보상 모델에서 프롬프트 x와 응답 y의 보상 값이고, yw는 라벨러가 선호하는 응답 결과이고, yl은 라벨러가 좋아하지 않는 응답 결과입니다. D는 전체 훈련 데이터 세트입니다.

2.2.3 강화 학습 모델(PPO)

강화 학습과 사전 훈련 모델은 지난 2년 동안 가장 인기 있는 AI 방향 중 두 가지입니다. 많은 과학 연구자들은 이전에 강화 학습이 사전 학습에 적합하지 않다고 말했습니다. - 모델을 훈련하는 것. 모델의 출력 내용을 통해 보상 메커니즘을 확립하기가 어렵기 때문입니다. InstructGPT/ChatGPT는 이 알고리즘의 가장 큰 혁신인 수동 주석을 결합하여 사전 훈련된 언어 모델에 강화 학습을 도입합니다.

표 2에서 볼 수 있듯이 PPO의 훈련 세트는 전적으로 API에서 나옵니다. 2단계에서 얻은 보상 모델을 사용하여 SFT 모델의 지속적인 교육을 안내합니다. 강화 학습은 훈련하기가 매우 어려운 경우가 많습니다. InstructGPT/ChatGPT는 훈련 과정에서 두 가지 문제에 직면했습니다.

문제 1: 모델이 업데이트됨에 따라 강화 학습 모델에서 생성된 데이터와 사용된 데이터 간에 차이가 있습니다. 보상 모델을 훈련하면 점점 더 커질 것입니다. 저자의 해결책은 PPO 모델의 출력과 SFT의 출력이 크게 다르지 않도록 손실 함수에 KL 페널티 항 βlog⁡(πфRL(y∣x)/πSFT(y∣x))를 추가하는 것입니다.
문제 2: 훈련에 PPO 모델만 사용하면 일반 NLP 작업에서 모델 성능이 크게 저하됩니다. 저자의 해결책은 일반 언어 모델 대상 γEx∼Dpretrain [log⁡(πфRL (x)))을 추가하는 것입니다. ], 이 변수는 논문에서 PPO-ptx라고 불립니다.

요약하자면, PPO의 훈련 목표는 공식 (2)입니다. (2) 목적 (ψ)=E(x,y)∼DπψRL[rθ(x,y)−βlog⁡(πψRL(y∣x)/πSFT(y∣x))]+γEx∼Dpretrain [log⁡( πψRL(x))]

3. InstructGPT/ChatGPT의 성능 분석

InstructGPT/ChatGPT의 효과가 매우 좋다는 것은 부인할 수 없는 사실입니다. 특히 수동 주석을 도입한 후에는 모델의 "값"이 정확합니다. 인간 행동 패턴의 수준과 '진정성'이 크게 향상되었습니다. 그렇다면 InstructGPT/ChatGPT의 기술 솔루션과 교육 방법만을 토대로 어떤 개선 효과를 가져올 수 있는지 분석할 수 있을까요?

3.1 장점

InstructGPT/ChatGPT의 효과는 GPT-3보다 더 현실적입니다. GPT-3 자체에는 매우 강력한 일반화 및 생성 기능이 있고 InstructGPT/ChatGPT는 다양한 라벨러 작성 프롬프트 및 정렬을 도입하므로 이해하기 쉽습니다. 결과를 생성하고 GPT-3 위에 미세 조정되어 보상 모델을 훈련할 때 보다 현실적인 데이터에 대해 더 높은 보상을 받을 수 있습니다. 저자는 또한 TruthfulQA 데이터 세트에서 GPT-3과 성능을 비교했습니다. 실험 결과는 13억 개의 작은 크기 PPO-ptx도 GPT-3보다 성능이 더 우수하다는 것을 보여줍니다.
InstructGPT/ChatGPT는 모델 무해성 측면에서 GPT-3보다 약간 더 무해합니다. 원칙은 위와 동일합니다. 그러나 저자는 InstructGPT가 차별, 편견 및 기타 데이터 세트를 크게 개선하지 못했다는 사실을 발견했습니다. 이는 GPT-3 자체가 매우 효과적인 모델이고, 유해, 차별, 편향 등의 조건으로 문제가 있는 샘플이 생성될 확률이 매우 낮기 때문입니다. 단순히 40명의 라벨러를 통해 데이터를 수집하고 라벨링하는 것만으로는 이러한 측면에서 모델을 완전히 최적화할 수 없기 때문에 모델 성능의 향상은 거의 없거나 눈에 띄지 않을 것입니다.
InstructGPT/ChatGPT에는 강력한 코딩 기능이 있습니다. 우선 GPT-3에는 강력한 코딩 기능이 있으며 GPT-3 기반 API도 많은 양의 코딩 코드를 축적했습니다. 그리고 OpenAI 내부 직원 일부도 데이터 수집 작업에 참여했다. 코딩 및 수동 주석과 관련된 대량의 데이터를 통해 훈련된 InstructGPT/ChatGPT가 매우 강력한 코딩 기능을 가지고 있다는 것은 놀라운 일이 아닙니다.

3.2 단점

InstructGPT/ChatGPT는 일반 NLP 작업에 대한 모델의 효과를 감소시킵니다. 손실 함수를 수정하면 문제가 완화될 수 있지만 이 문제는 완전히 해결되지 않았습니다.
때때로 InstructGPT/ChatGPT는 터무니없는 출력을 제공합니다. InstructGPT/ChatGPT는 인간의 피드백을 사용하지만 제한된 인적 자원으로 인해 제한됩니다. 모델에 가장 큰 영향을 미치는 것은 지도 언어 모델 작업으로, 인간은 교정 역할만 수행합니다. 따라서 제한된 수정 데이터 또는 지도 작업의 오해(사람이 원하는 것이 아닌 모델의 출력만 고려)로 인해 제한되어 비현실적인 콘텐츠가 생성될 가능성이 매우 높습니다. 학생과 마찬가지로 그를 지도하는 교사가 있지만 학생이 모든 지식 포인트를 배울 수 있는지는 확실하지 않습니다.
모델은 명령어에 매우 민감합니다. 이는 라벨러가 주석을 추가한 데이터의 양이 부족하기 때문일 수도 있습니다. 명령어의 수와 유형이 적절하게 훈련되지 않은 경우 명령어는 모델이 출력을 생성하는 유일한 단서이기 때문입니다. , 모델에 이 문제가 있을 수 있습니다.
모델의 단순한 개념에 대한 과도한 해석: 이는 라벨러가 생성된 콘텐츠를 비교할 때 긴 출력 콘텐츠에 더 높은 보상을 주는 경향이 있기 때문일 수 있습니다.
유해한 지침은 유해한 답변을 출력할 수 있습니다. 예를 들어 InstructGPT/ChatGPT는 사용자가 제안한 "AI 파괴 계획"에 대한 실행 계획도 제공합니다(그림 5). InstructGPT/ChatGPT는 라벨러가 작성한 지시 사항이 타당하고 값이 정확하다고 가정하고 사용자가 지시한 사항에 대해 더 자세한 판단을 내리지 않아 모델이 답변을 하게 되기 때문입니다. 어떤 입력에도. 이후의 보상 모델은 이러한 유형의 출력에 대해 더 낮은 보상 값을 제공할 수 있지만, 모델이 텍스트를 생성할 때 모델의 값뿐만 아니라 생성된 콘텐츠와 지침의 일치도 고려해야 합니다. 때로는 일부 값을 생성하는 데 문제가 있을 수도 있습니다.

ChatGPT/InstructGPT 자세한 설명

그림 5: ChatGPT에서 작성한 인류 파괴 계획.

3.3 향후 작업

InstrcutGPT/ChatGPT의 기술 솔루션과 그 문제를 분석한 다음 InstrcutGPT/ChatGPT의 최적화 각도도 확인할 수 있습니다.

수동 주석의 비용 절감 및 효율성 증가: InstrcutGPT/ChatGPT는 40명으로 구성된 주석 팀을 고용하지만, 모델 성능으로 볼 때 이 40명 팀으로는 충분하지 않습니다. 인간이 어떻게 보다 효과적인 피드백 방법을 제공할 수 있는지, 그리고 인간의 성과와 모델 성과를 유기적이고 능숙하게 결합할 수 있는지는 매우 중요합니다.
명령을 일반화/수정하는 모델의 능력: 명령어는 모델이 출력을 생성하는 유일한 단서이며, 모델은 명령어에 크게 의존합니다. 명령어를 일반화하고 오류 명령어를 수정하는 능력은 매우 중요합니다. 모델 경험을 개선하는 작업입니다. 이를 통해 모델이 더 넓은 범위의 응용 시나리오를 가질 수 있을 뿐만 아니라 모델을 더욱 "스마트"하게 만듭니다.
일반적인 작업 성능 저하 방지: 인간 피드백을 사용하는 보다 합리적인 방법이나 보다 최첨단 모델 구조를 설계해야 할 수도 있습니다. InstrcutGPT/ChatGPT의 많은 문제는 더 많은 라벨러 라벨링 데이터를 제공하면 해결될 수 있지만 이는 일반 NLP 작업의 더 심각한 성능 저하로 이어질 것이므로 3H 및 일반 NLP 작업의 성능을 향상시키기 위한 솔루션이 필요합니다. 결과를 생성합니다.

3.4 InstrcutGPT/ChatGPT 인기 주제 답변

ChatGPT의 출현으로 하위 수준 프로그래머가 직업을 잃게 될까요? ChatGPT의 원리와 생성된 콘텐츠가 인터넷에 유출된 것으로 판단하면 ChatGPT에서 생성된 코드 중 상당수가 올바르게 실행될 수 있습니다. 그러나 프로그래머의 임무는 코드를 작성하는 것뿐만 아니라 더 중요한 것은 문제에 대한 해결책을 찾는 것입니다. 따라서 ChatGPT는 프로그래머, 특히 고급 프로그래머를 대체하지 않습니다. 오히려 오늘날의 많은 코드 생성 도구처럼 프로그래머가 코드를 작성하는 데 매우 유용한 도구가 될 것입니다.
Stack Overflow에서 임시 규칙인 ChatGPT 금지를 발표했습니다. ChatGPT는 본질적으로 텍스트 생성 모델이며, 코드 생성에 비해 가짜 텍스트 생성에 더 좋습니다. 더욱이, 텍스트 생성 모델에 의해 생성된 코드나 솔루션은 실행 가능함을 보장하지 않고 문제를 해결할 수 있지만 실제 텍스트인 것처럼 가장하여 이 문제를 쿼리하는 많은 사람들을 혼란스럽게 할 것입니다. 포럼의 품질을 유지하기 위해 Stack Overflow에서는 ChatGPT를 금지했으며 정리 작업도 진행 중입니다.
챗봇 ChatGPT는 "인류를 파괴하려는 계획"을 작성하도록 유도하고 AI 개발에서 어떤 문제에 주의해야 할까요? ChatGPT의 '인류멸망계획'은 예상치 못한 지시에 따라 대량의 데이터를 바탕으로 강제로 끼워맞추어 생성된 콘텐츠입니다. 내용이 매우 현실감 있고 표현이 매우 유창하지만 ChatGPT가 매우 강력한 생성 효과를 가지고 있음을 보여줄 뿐 ChatGPT가 인류를 파괴하려는 아이디어를 가지고 있다는 의미는 아닙니다. 의사결정 모델이 아닌 텍스트 생성 모델일 뿐이기 때문입니다.

4. 요약

많은 사람들의 알고리즘이 처음 탄생했을 때와 마찬가지로 ChatGPT는 유용성, 진정성 및 무해한 효과로 인해 업계와 AI에 대한 인간의 생각에서 광범위한 관심을 받았습니다. 하지만 알고리즘의 원리를 살펴본 결과, 업계에서 광고하는 것만큼 무섭지는 않다는 것을 알게 되었습니다. 오히려 우리는 기술적인 솔루션을 통해 많은 귀중한 것을 배울 수 있습니다. AI 세계에서 InstrcutGPT/ChatGPT의 가장 중요한 기여는 강화 학습과 사전 훈련 모델의 영리한 조합입니다. 또한 인위적인 피드백은 모델의 유용성, 신뢰성 및 무해성을 향상시킵니다. ChatGPT는 또한 대형 모델의 비용을 더욱 높였습니다. 이전에는 데이터 양과 모델 규모의 경쟁에 불과했지만 이제는 아웃소싱 비용까지 도입하여 개별 작업자를 더욱 어렵게 만들었습니다.

Reference

^Ouyang, Long, et al. "인간 피드백을 통해 지침을 따르도록 언어 모델 훈련." *arXiv 사전 인쇄 arXiv:2203.02155* https://arxiv.org/pdf/2203.02155.pdf
^Radford, A., Narasimhan, K., Salimans, T. 및 Sutskever, I., 2018. 생성적 사전 훈련을 통한 언어 이해 향상 https://www.cs.ubc.ca/~amuham01/LING530 /papers/radford2018improving.pdf
^Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. 및 Sutskever, I., 2019. 언어 모델은 비지도 멀티태스킹 학습자입니다. 블로그*, *1*(8), p.9. https://life-extension.github.io/2020/05/27/GPT%E6%8A%80%E6%9C%AF%E5%88% 9D%E6%8E%A2/언어-models.pdf
^Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan 외 “언어 모델은 소수의 학습자입니다. ." *arXiv 사전 인쇄 arXiv:2005.14165* (2020). https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
^Wei, Jason, et al. "미세 조정된 언어 모델은 0입니다. -shot learners." *arXiv 사전 인쇄 arXiv:2109.01652* (2021). https://arxiv.org/pdf/2109.01652.pdf
^Christiano, Paul F., et al. "인간 선호도로부터 심층 강화 학습." *신경 정보 처리 시스템의 발전* 30(2017). https://arxiv.org/pdf/1706.03741.pdf
^Schulman, John, et al. *arXiv 사전 인쇄 arXiv:1707.06347* (2017). https://arxiv.org/pdf/1707.06347.pdf

위 내용은 ChatGPT/InstructGPT 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7552

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

이제 ChatGPT를 사용하면 무료 사용자가 일일 한도가 있는 DALL-E 3를 사용하여 이미지를 생성할 수 있습니다. Aug 09, 2024 pm 09:37 PM

DALL-E 3는 이전 모델보다 대폭 개선된 모델로 2023년 9월 공식 출시되었습니다. 복잡한 디테일의 이미지를 생성할 수 있는 현재까지 최고의 AI 이미지 생성기 중 하나로 간주됩니다. 그러나 출시 당시에는 제외되었습니다.

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

$옥스포드 대학의 최신 소식! 미키: 3D SOTA로 2D 이미지 매칭! (CVPR\'24)$ 옥스포드 대학의 최신 소식! 미키: 3D SOTA로 2D 이미지 매칭! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

앞에 적힌 프로젝트 링크: https://nianticlabs.github.io/mickey/ 두 장의 사진이 주어지면 사진 간의 대응 관계를 설정하여 두 장의 사진 사이의 카메라 포즈를 추정할 수 있습니다. 일반적으로 이러한 대응은 2D에서 2D로 이루어지며 추정된 포즈는 규모에 따라 결정되지 않습니다. 언제 어디서나 즉각적인 증강 현실과 같은 일부 애플리케이션은 규모 측정항목의 포즈 추정이 필요하므로 규모를 복구하기 위해 외부 깊이 추정기에 의존합니다. 본 논문에서는 3차원 카메라 공간에서 메트릭 일치성을 예측할 수 있는 키포인트 매칭 프로세스인 MicKey를 제안합니다. 이미지 전반에 걸쳐 3D 좌표 매칭을 학습함으로써 측정 기준을 추론할 수 있습니다.

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | Apr 29, 2024 pm 04:55 PM

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

See all articles

ChatGPT/InstructGPT 자세한 설명

머리말

1. 배경 지식

1.1 GPT 시리즈

1.3 인공 피드백을 통한 강화 학습

2. InstructGPT/ChatGPT 원칙 해석

그림 4와 같이 InstructGPT/ChatGPT의 학습은 3단계로 나누어지며, 각 단계에 필요한 데이터는 조금씩 다릅니다. 아래에서 별도로 소개하겠습니다.

InstructGPT/ChatGPT는 GPT-3을 기반으로 미세 조정되고 수동 주석이 포함되므로 전체 데이터 양이 크지 않습니다. 표 2는 세 가지 데이터의 소스와 그들의 데이터 양.

InstructGPT/ChatGPT에는 3단계 훈련 방법이 있다는 것을 방금 소개했습니다. 이 세 가지 교육 단계에는 SFT, RM 및 PPO의 세 가지 모델이 포함됩니다. 아래에서 자세히 소개하겠습니다.

이 단계의 훈련은 GPT-3과 일치하며, 저자는 모델이 적절하게 과적합되도록 허용하면 다음 두 단계의 훈련에 도움이 된다는 것을 발견했습니다.

2.2.3 강화 학습 모델(PPO)

3. InstructGPT/ChatGPT의 성능 분석

3.1 장점

3.2 단점

3.3 향후 작업

3.4 InstrcutGPT/ChatGPT 인기 주제 답변

4. 요약

Reference

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제