목차
데이터 세트​
명령 미세 조정 언어 모델​
실험​
기술 주변기기 일체 포함 처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

Apr 10, 2023 pm 02:21 PM
ai 모델

우리는 Google T5 모델부터 OpenAI GPT 시리즈 대형 모델, LLM(대형 언어 모델)에 이르기까지 상황별 학습 및 사고 사슬 추론과 같은 인상적인 일반화 기능을 입증했다는 것을 알고 있습니다. 동시에 LLM이 자연어 지침을 따르고 실제 작업을 완료하도록 하기 위해 연구자들은 LLM에 대한 지침 미세 조정 방법을 탐색해 왔습니다. 이는 두 가지 방법으로 수행됩니다. 사람이 주석을 추가한 프롬프트와 피드백을 사용하여 다양한 작업에 대한 모델을 미세 조정하거나 수동 또는 자동 생성된 지침으로 보강된 공개 벤치마크 및 데이터 세트를 사용하여 미세 조정을 감독합니다. ​

이러한 방법 중 Self-Instruct Fine-tuning은 SOTA 수업 Fine-tuning의 교사 LLM이 생성한 데이터를 따르는 수업을 통해 학습하여 LLM이 인간의 의도와 일치하도록 하는 간단하고 효과적인 방법입니다. 명령 미세 조정이 LLM의 제로 샘플 및 소규모 샘플 일반화 기능을 향상시키는 효과적인 수단이 되었다는 사실이 입증되었습니다. ​

최근 ChatGPT 및 GPT-4의 성공은 교육 미세 조정을 사용하여 오픈 소스 LLM을 개선할 수 있는 엄청난 기회를 제공합니다. Meta LLaMA는 GPT-3와 같은 독점 LLM에 필적하는 성능을 갖춘 오픈 소스 LLM 제품군입니다. LLaMA가 지침을 따르도록 가르치기 위해 뛰어난 성능과 저렴한 비용으로 인해 Self-Instruct가 빠르게 채택되었습니다. 예를 들어 Stanford의 Alpaca 모델은 GPT-3.5에서 생성된 52k 명령 준수 샘플을 사용하고, Vicuna 모델은 ShareGPT에서 약 70k 명령 준수 샘플을 사용합니다. ​

LLM 지침 미세 조정의 SOTA 수준을 향상시키기 위해 Microsoft Research는 "GPT-4를 사용한 지침 조정"이라는 논문에서 처음으로 GPT-4를 자기 유도 미세 조정을 위한 교사 모델로 사용했습니다. ".

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

  • 문서 주소: https://arxiv.org/pdf/2304.03277.pdf
  • 프로젝트 주소: https://instruction-tuning-with-gpt-4.github. io/
  • GitHub 주소: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

연구원이 한 번에 공개했습니다. GPT-4에서 생성된 데이터에는 중국어와 영어로 된 52,000개의 명령 준수 데이터 세트와 세 가지 명령 미세 조정 모델의 출력을 평가하기 위해 GPT-4에서 생성된 피드백 데이터가 포함됩니다. ​

한편, GPT-4에서 생성된 데이터를 기반으로 지시 미세 조정 LLaMA 모델과 보상 모델이 개발되었습니다. 지침 미세 조정 LLM의 품질을 평가하기 위해 연구원들은 세 가지 정렬 기준의 수동 평가, GPT-4 피드백을 기반으로 한 자동 평가, ROUGE-L(부자연스러운 지침에 대한 자동 요약 평가 방법)의 세 가지 지표를 사용하여 테스트 샘플을 평가했습니다. . 하나). ​

실험 결과는 GPT-4에서 생성된 데이터를 사용하여 LLM 지침 미세 조정의 효과를 검증합니다. GPT-4에서 생성된 52k 중국어 및 영어 명령 준수 데이터는 이전 SOTA 모델보다 새로운 작업에서 더 나은 제로 샘플 성능을 달성합니다. 현재 연구자들은 GPT-4 및 관련 코드를 사용하여 생성된 데이터를 공개했습니다.

데이터 세트​

이 연구에서는 GPT-4를 사용하여 다음 네 가지 데이터 세트를 생성합니다.

  • 영어 지침-다음 데이터: Alpaca에서 수집된 52K 지침의 경우 각 지침에는 영어 GPT-4 답변이 제공됩니다. 이 데이터 세트는 주로 GPT-4 답변과 GPT-3 답변의 통계를 탐색하고 비교하는 데 사용됩니다.
  • 중국어 지침 따르기 데이터: 이 연구에서는 ChatGPT를 사용하여 52K 지침을 중국어로 번역하고 GPT-4에게 중국어로 답변하도록 요청했습니다.
  • 비교 데이터: GPT-4가 귀하의 응답을 1에서 10까지 평가하도록 하세요. 또한 연구에서는 GPT-4에 GPT-4, GPT-3.5, OPT-IML이라는 세 가지 모델의 응답을 비교하고 점수를 매기도록 요청했습니다. 이 데이터 세트는 주로 보상 모델을 훈련하는 데 사용됩니다.
  • 부자연스러운 명령에 대한 답변: GPT-4의 답변은 68K 명령-입-출력 3개 핵심 데이터 세트에서 디코딩됩니다. 이 하위 집합은 GPT-4와 명령어 미세 조정 모델 간의 격차를 정량화하는 데 사용됩니다. ​

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

그림 1은 GPT-4와 GPT-3.5의 영어 출력 응답 세트를 비교합니다. 그림 1 (a)와 (b)는 빈도가 10보다 높은 동사-명사 쌍의 두 출력 세트를 보여줍니다. 그림 1 (c)는 두 세트에서 가장 자주 사용되는 25개의 단어 쌍을 비교합니다. 시퀀스 길이의 빈도 분포 및 결과는 GPT-4가 GPT-3.5보다 더 긴 시퀀스를 생성하는 경향이 있음을 보여줍니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

명령 미세 조정 언어 모델​

이 연구는 LLaMA 7B 체크포인트를 기반으로 하며 지도 미세 조정을 사용하여 두 가지 모델을 훈련합니다. (i) LLaMA-GPT4, 다음에서 생성된 52K 영어 명령 준수 데이터 GPT-4 열차. (ii) GPT-4에서 생성된 데이터를 따르는 52K 중국어 명령어로 훈련된 LLaMA-GPT4-CN.

보상 모델

RLHF(Reinforcement Learning with Human Feedback)는 LLM 행동이 인간 선호도와 일치하도록 만드는 것을 목표로 합니다. 이 문제는 종종 회귀 작업으로 공식화됩니다. 주어진 단서와 반응 사이의 보상을 예측합니다. 그러나 이 방법은 일반적으로 대규모 비교 데이터가 필요하며, Alpaca, Vicuna, Dolly와 같은 기존 오픈 소스 모델은 비교 데이터에 주석을 추가하는 데 드는 비용이 높기 때문에 RLHF를 포함하지 않습니다. 동시에 최근 연구에 따르면 GPT-4는 자체 오류를 식별 및 수정하고 응답의 품질을 정확하게 판단할 수 있는 것으로 나타났습니다. 따라서 본 연구에서는 RLHF에 대한 연구를 촉진하기 위해 앞서 설명한 바와 같이 GPT-4를 활용한 비교자료를 작성하였다.

데이터 품질을 평가하기 위해 연구에서는 이 데이터 세트에 대한 평가를 위해 OPT 1.3B를 기반으로 한 보상 모델도 훈련했습니다. 비교 데이터의 분포는 그림 2에 나와 있습니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

실험​

이 연구에서는 인간 평가, GPT-4, 부자연스러운 수업 평가의 세 가지 평가 유형을 활용합니다. 결과는 GPT-4에서 생성된 데이터를 사용하는 것이 다른 기계 생성 데이터에 비해 LLM 명령을 미세 조정하는 효율적이고 효과적인 방법임을 확인합니다. 다음으로 구체적인 실험 과정을 살펴보겠습니다.

인간 평가

그림 3(a)는 LLaMA-GPT4와 Alpaca의 비교 결과를 보여줍니다. 실험 결과 유용성 지표에서 GPT-4가 54.12%의 점수로 승리했습니다. 그림 3(b)는 LLaMA-GPT4와 GPT-4의 비교 결과를 보여주며, 이는 GPT-4 명령어로 미세 조정된 LLaMA의 성능이 원래 GPT-4와 유사함을 보여줍니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

자동 평가를 사용해 SOTA와 비교

이 연구에서는 GPT-4를 사용하여 보이지 않는 질문 80개에 대한 다양한 모델의 응답을 자동으로 평가합니다. 먼저 LLaMA-GPT-4(7B) 및 GPT-4라는 두 개의 챗봇에서 답변을 수집하고 LLaMA(13B), Alpaca(13B), Vicuna(13B), Bard(Google, 2023)를 포함한 다른 챗봇을 사용하여 답변을 게시합니다. 그리고 ChatGPT. 각 평가에 대해 연구에서는 GPT-4에게 두 모델 간의 반응 품질을 1~10점 척도로 평가하도록 요청했습니다. 결과는 그림 4에 나와 있습니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

그림 4(c,d)는 모든 챗봇을 비교합니다. LLaMA_GPT4는 더 나은 성능을 발휘합니다. 7B LLaMA GPT4는 13B Alpaca 및 LLaMA보다 성능이 더 좋습니다. 그러나 LLaMA_GPT4는 GPT-4와 같은 대형 상용 챗봇과 비교하면 여전히 격차가 있습니다. ​

연구원들은 아래 그림 5에서 모든 챗봇의 성능을 추가로 연구했습니다. 먼저 GPT-4를 사용하여 챗봇의 영어 응답을 중국어로 번역한 다음 GPT-4를 사용하여 영어 질문을 중국어로 번역하여 답변을 얻습니다. GPT-4 번역 및 생성된 중국어 응답과의 비교는 5(a) 및 5(b)에 표시되며, 중국어로 답변하도록 요청된 모든 모델 결과는 5(c)에 표시됩니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

아래 그림 6에서 연구원들은 LLaMA-GPT4를 GPT-4 및 Alpaca 부자연스러운 명령과 비교합니다. 결과는 LLaMA-GPT4 및 GPT-4가 Ground Truth 응답 길이가 증가함에 따라 더 나은 성능을 발휘한다는 것을 보여줍니다. 이는 장면이 더 창의적일수록 지시를 더 잘 따를 수 있다는 것을 의미합니다. LLaMA-GPT4와 GPT-4는 모두 시퀀스 길이가 짧을 때 간단한 실측 답변이 포함된 응답을 생성할 수 있으며 추가 단어를 추가하면 응답이 더욱 채팅과 유사해집니다.

처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.

더 많은 기술적, 실험적 세부사항은 원본 논문을 참조하세요.

위 내용은 처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

세계의 상위 10 개 통화 거래 플랫폼 중 상위 10 개 통화 거래 플랫폼의 최신 버전 세계의 상위 10 개 통화 거래 플랫폼 중 상위 10 개 통화 거래 플랫폼의 최신 버전 Apr 28, 2025 pm 08:09 PM

전 세계의 상위 10 개 암호 화폐 거래 플랫폼에는 Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin 및 Poloniex가 포함되며 다양한 거래 방법과 강력한 보안 조치가 제공됩니다.

암호 해독 게이트.IO 전략 업그레이드 : Memebox 2.0에서 암호화 자산 관리를 재정의하는 방법? 암호 해독 게이트.IO 전략 업그레이드 : Memebox 2.0에서 암호화 자산 관리를 재정의하는 방법? Apr 28, 2025 pm 03:33 PM

Memebox 2.0은 혁신적인 아키텍처 및 성능 혁신을 통해 암호화 자산 관리를 재정의합니다. 1) 자산 사일로, 소득 부패 및 보안 및 편의의 역설의 세 가지 주요 고통 지점을 해결합니다. 2) 지능형 자산 허브, 동적 위험 관리 및 반환 향상 엔진을 통해 크로스 체인 전송 속도, 평균 수율 및 보안 사고 응답 속도가 향상됩니다. 3) 사용자 가치 재구성을 실현하여 자산 시각화, 정책 자동화 및 거버넌스 통합을 사용자에게 제공합니다. 4) 생태 협력 및 규정 준수 혁신을 통해 플랫폼의 전반적인 효과가 향상되었습니다. 5) 앞으로, 스마트 계약 보험 풀, 예측 시장 통합 및 AI 중심 자산 할당이 시작되어 업계의 발전을 계속 이끌 것입니다.

C에서 Chrono 라이브러리를 사용하는 방법? C에서 Chrono 라이브러리를 사용하는 방법? Apr 28, 2025 pm 10:18 PM

C에서 Chrono 라이브러리를 사용하면 시간과 시간 간격을보다 정확하게 제어 할 수 있습니다. 이 도서관의 매력을 탐구합시다. C의 크로노 라이브러리는 표준 라이브러리의 일부로 시간과 시간 간격을 다루는 현대적인 방법을 제공합니다. 시간과 C 시간으로 고통받는 프로그래머에게는 Chrono가 의심 할 여지없이 혜택입니다. 코드의 가독성과 유지 가능성을 향상시킬뿐만 아니라 더 높은 정확도와 유연성을 제공합니다. 기본부터 시작합시다. Chrono 라이브러리에는 주로 다음 주요 구성 요소가 포함됩니다. std :: Chrono :: System_Clock : 현재 시간을 얻는 데 사용되는 시스템 클럭을 나타냅니다. STD :: 크론

오늘 비트 코인 가격 오늘 비트 코인 가격 Apr 28, 2025 pm 07:39 PM

오늘날 Bitcoin의 가격 변동은 거시 경제학, 정책 및 시장 감정과 같은 많은 요인의 영향을받습니다. 투자자는 정보에 입각 한 결정을 내리려면 기술 및 기본 분석에주의를 기울여야합니다.

신뢰할 수있는 디지털 통화 거래 플랫폼. 세계 10 대 디지털 환전. 2025 신뢰할 수있는 디지털 통화 거래 플랫폼. 세계 10 대 디지털 환전. 2025 Apr 28, 2025 pm 04:30 PM

권장 신뢰할 수있는 디지털 통화 거래 플랫폼 : 1. OKX, 2. BINANCE, 3. COINBASE, 4. KRAKEN, 5. HUOBI, 6. KUCOIN, 7. BITFINEX, 8. GEMINI, 9. BITSTAMP, 10. POLONIEX, 이러한 플랫폼, 사용자 경험 및 다양한 기능, 다양한 수준의 사용자에게 적합합니다.

비트 코인의 가치는 얼마입니까? 비트 코인의 가치는 얼마입니까? Apr 28, 2025 pm 07:42 PM

비트 코인의 가격은 $ 20,000에서 $ 30,000입니다. 1. Bitcoin의 가격은 2009 년 이후 극적으로 변동하여 2017 년에 거의 20,000 달러에 이르렀으며 2021 년에는 거의 60,000 달러에 달합니다. 가격은 시장 수요, 공급 및 거시 경제 환경과 같은 요인의 영향을받습니다. 3. 거래소, 모바일 앱 및 웹 사이트를 통해 실시간 가격을 얻으십시오. 4. 비트 코인 가격은 시장 감정과 외부 요인에 의해 유발되는 변동성이 높습니다. 5. 전통적인 금융 시장과의 특정 관계가 있으며 글로벌 주식 시장, 미국 달러의 강점 등의 영향을받습니다. 6. 장기 추세는 낙관적이지만, 위험은주의해서 평가되어야합니다.

상위 10 개의 가상 통화 거래 앱은 무엇입니까? 최신 디지털 환전 순위 상위 10 개의 가상 통화 거래 앱은 무엇입니까? 최신 디지털 환전 순위 Apr 28, 2025 pm 08:03 PM

Binance, Okx, Gate.io와 같은 상위 10 개 디지털 환전 거래소는 시스템, 효율적인 다양한 거래 및 엄격한 보안 조치를 개선했습니다.

세계 10 대 통화 거래 플랫폼 중 2025 년 상위 10 개 통화 거래 플랫폼 중 하나 세계 10 대 통화 거래 플랫폼 중 2025 년 상위 10 개 통화 거래 플랫폼 중 하나 Apr 28, 2025 pm 08:12 PM

2025 년 전 세계의 상위 10 개 암호 화폐 교환에는 Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex 및 Poloniex가 포함됩니다.

See all articles