Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.-일체 포함-php.cn

Instruction Tuning Language Model

실험 결과

집

기술 주변기기

일체 포함

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

王林

Apr 26, 2023 pm 02:58 PM

ai 데이터

"명령"은 ChatGPT 모델의 획기적인 발전의 핵심 요소로, "인간 선호도"에 더 부합하는 언어 모델의 출력을 만들 수 있습니다.

그러나 지침의 주석에는 많은 인력이 필요합니다. 오픈 소스 언어 모델을 사용하더라도 자금이 부족한 학술 기관과 소규모 회사에서는 자체 ChatGPT를 교육하기가 어렵습니다.

최근 Microsoft 연구원들은 The 제안된 Self-Instruct 기술은 GPT-4 모델을 사용하여 언어 모델에 필요한 미세 조정 명령 데이터 를 자동으로 생성하는 최초의 시도입니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

문서 링크: https://arxiv.org/pdf/2304.03277.pdf

코드 링크: https://github.com/Instruction-Tuning-with-GPT -4/GPT-4-LLM

Meta 오픈소스 기반 LLaMA 모델의 실험 결과, GPT-4에서 생성된 52,000개의 영어 및 중국어 지시 따르기 데이터가 새로운 작업에서 더 나은 성능을 보였습니다. 연구진은 이전 최첨단 모델에서 생성된 데이터와 종합적인 평가 및 보상 모델 훈련을 위해 GPT-4로부터 피드백 및 비교 데이터도 수집했습니다.

훈련 데이터

데이터 수집

연구원들은 스탠포드 대학교에서 출시한 Alpaca 모델에서 사용하는 52,000개의 지침을 재사용했습니다. 여기서 각 지침은 모델이 수행해야 하는 작업을 설명하고 동일한 지침을 따릅니다. Alpaca는 입력 상황과 입력되지 않는 상황을 모두 작업에 대한 선택적 컨텍스트 또는 입력으로 간주하여 지침에 대한 답변을 출력합니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

Alpaca 데이터 세트에서는 GPT-3.5(text-davinci-003)를 사용하여 출력이 생성되었지만, 이 논문에서는 연구원들이 GPT-4를 사용하여 데이터를 생성하기로 선택했습니다. 다음 4가지 데이터 세트:

1. 영어 명령어 후속 데이터: Alpaca에서 수집된 52,000개의 명령어에 대해 각 명령어에 대해 영어 GPT-4 답변이 제공됩니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

향후 작업은 반복 프로세스를 따르고 GPT-4 및 자체 지시를 사용하여 새로운 데이터 세트를 구축하는 것입니다.

2. 중국어 지시 따르기 데이터: ChatGPT를 사용하여 52,000개의 지시를 중국어로 번역하고 GPT-4에게 이 지시를 중국어로 대답하도록 요청하여 LLaMA를 기반으로 한 중국어 지시 따르기 모델을 구축하고 연구합니다. 명령 조정의 언어 간 일반화 능력.

3. 비교 데이터: GPT-4가 자체 응답에 대해 1부터 10까지의 점수를 제공하도록 요구하고 세 가지 모델의 응답에 대해 GPT-4, GPT-3.5 및 OPT-IML 점수를 훈련시킵니다. 보상 모델.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

4. 부자연스러운 지침에 대한 답변: GPT-4에 대한 답변은 이 하위 집합을 사용하여 68,000개(명령, 입력, 출력)의 데이터 집합에서 디코딩되었습니다. GPT-4 및 지침 조정 모델.

통계

연구원들은 GPT-4와 GPT-3.5의 영어 출력 응답 세트를 비교했습니다. 각 출력에 대해 어근 동사와 직접 목적어 명사가 추출되었으며, 각 출력 세트에서 고유한 동사-명사 쌍의 빈도가 계산되었습니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

빈도가 10보다 높은 동사-명사 쌍

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

가장 자주 사용되는 동사-명사 쌍 25개

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

출력 시퀀스 길이의 빈도 분포 비교

GPT-4가 GPT-3.5보다 긴 시퀀스를 생성하는 경향이 있음을 알 수 있습니다. 알파카에서 GPT-3.5 데이터의 롱테일 현상은 출력 분포보다 더 분명합니다. GPT-4의 Alpaca 데이터 세트에는 현재 일회성 데이터 생성에서는 사용할 수 없는 각 반복에서 유사한 명령 인스턴스를 제거하는 반복적인 데이터 수집 프로세스가 포함될 수 있습니다.

과정은 간단하지만 GPT-4에서 생성된 지시추종 데이터는 더욱 강력한 정렬 성능을 발휘합니다.

Instruction Tuning Language Model

Self-Instruct Tuning

연구원들은 LLaMA 7B 체크포인트 감독 미세 조정을 기반으로 두 가지 모델을 얻었습니다. LLaMA-GPT4는 GPT-4 5.2에서 생성되었습니다. 10,000에서 훈련되었습니다. 영어 지시 따르기 데이터; LLaMA-GPT4-CN은 GPT-4의 중국어 지시 따르기 데이터 52,000개를 학습했습니다.

두 가지 모델을 사용하여 GPT-4의 데이터 품질과 단일 언어로 조정된 LLM의 언어 간 일반화 속성을 연구했습니다.

보상 모델

인간 피드백을 통한 강화 학습(RLHF)은 LLM 동작이 인간 선호도와 일치하도록 만들어 언어 모델의 출력을 인간에게 더 유용하게 만드는 것을 목표로 합니다.

RLHF의 핵심 구성 요소는 보상 모델링입니다. 문제는 프롬프트와 응답이 주어지면 보상 점수를 예측하는 회귀 작업으로 공식화될 수 있습니다. 이 방법에는 일반적으로 대규모 비교 데이터가 필요합니다. 프롬프트에서 두 모델의 응답을 비교합니다.

Alpaca, Vicuna, Dolly 등 기존 오픈소스 모델은 비교 데이터에 주석을 다는 데 드는 비용이 높기 때문에 RLHF를 사용하지 않으며, 최근 연구에 따르면 GPT-4는 자체 오류를 식별하고 복구할 수 있으며, 응답의 질을 정확하게 판단하십시오.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

연구원들은 RLHF에 대한 연구를 촉진하기 위해 GPT-4를 사용하여 비교 데이터를 생성하여 데이터 품질을 평가했으며, 연구원들은 다양한 응답을 평가하기 위해 OPT 1.3B를 기반으로 보상 모델을 교육했습니다. GPT-4는 각 답변에 대해 1~10점 사이의 점수를 제공합니다.

실험 결과

이전에 본 적이 없는 작업에 대해 GPT-4 데이터에 대한 자체 지시 조정 모델의 성능을 평가하는 것은 여전히 어려운 작업으로 남아 있습니다.

모델의 다양한 작업 지침을 이해하고 준수하는 능력을 평가하는 것이 주요 목표이기 때문에, 이를 달성하기 위해 연구진은 세 가지 유형의 평가를 활용했으며 연구 결과에서 확인했습니다. "GPT-4를 사용하여 데이터 생성"에 비해 다른 기계에서 자동으로 생성된 데이터를 기반으로 대규모 언어 모델 명령을 조정하는 효과적인 방법입니다.

인간 평가

이 명령어를 조정한 후 대규모 언어 모델 정렬의 품질을 평가하기 위해 연구원들은 이전에 제안된 정렬 기준을 따랐습니다. 보조자가 도움이 되고 정직하며 무해한 경우(HHH) 정렬됩니다. 인간 평가 기준은 인공 지능 시스템이 인간 가치와 일치하는 정도를 평가하는 데에도 널리 사용됩니다.

유용성: 인간의 목표 달성에 도움이 될 수 있는지 여부에 관계없이 질문에 정확하게 답할 수 있는 모델은 도움이 됩니다.

정직: 사용자를 오해하게 만드는 것을 피하기 위해 필요할 때 진정한 정보를 제공하고 불확실성을 표현하는지 여부에 관계없이, 잘못된 정보를 제공하는 모델은 부정직합니다.

무해함: 증오 표현을 생성하거나 폭력을 조장하는 모델은 인간에게 해를 끼치지 않는다면 무해하지 않습니다.

HHH 정렬 기준에 따라 연구원들은 크라우드소싱 플랫폼 Amazon Mechanical Turk를 사용하여 모델 생성 결과를 수동으로 평가했습니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

글에서 제안한 두 모델은 GPT-4와 GPT-3에서 생성된 데이터를 토대로 미세 조정되었으며 LLaMA-GPT4가 51.2의 비율로 훨씬 더 유용하다는 것을 알 수 있습니다. %.GPT-3에서 미세 조정된 알파카(19.74%)보다 낫지만 정직성 및 무해성 기준에서는 기본적으로 동점이고 GPT-3가 약간 더 좋습니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

원래 GPT-4와 비교해 보면 세 가지 표준에서 둘이 상당히 일치하는 것을 알 수 있습니다. 즉, GPT-4 명령 튜닝 후 LLaMA의 성능은 원본과 유사합니다. GPT-4 .

GPT-4 자동 평가

Vicuna에서 영감을 받아 연구원들은 GPT-4를 사용하여 LLaMA의 보이지 않는 질문 80개에 대해 다양한 챗봇 모델에서 생성된 응답 품질을 평가하기로 결정했습니다. GPT에서 응답 수집 -4(7B)와 GPT-4 모델을 비교하고 이전 연구의 다른 모델로부터 답변을 얻은 다음 GPT-4에게 두 모델 간의 응답 품질을 1에서 10까지 평가하도록 요청하고 결과를 다음과 비교합니다. 다른 강력한 경쟁 모델(ChatGPT 및 GPT-4).

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

평가 결과는 피드백 데이터와 보상 모델이 LLaMA의 성능을 향상시키는 데 효과적이라는 것을 보여줍니다. GPT-4를 사용하여 LLaMA 지침을 조정하는 것이 text-davinci-003 조정(예: Alpaca)을 사용하는 것보다 더 나은 경우가 많습니다. ) 및 무튜닝(예: LLaMA)은 더 높은 성능을 가지며, 7B LLaMA GPT4의 성능은 13B Alpaca 및 LLaMA를 능가하지만 GPT-4와 같은 대형 상용 챗봇과 비교하면 여전히 격차가 있습니다.

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

중국어 챗봇의 성능을 더 연구할 때 먼저 GPT-4를 사용하여 챗봇의 질문을 영어에서 중국어로 번역하고 GPT-4를 사용하여 답변을 얻으면 두 가지 흥미로운 관찰이 가능합니다. made :

1. GPT-4 평가의 상대 점수 측정항목은 서로 다른 적대 모델(예: ChatGPT 또는 GPT-4)과 언어(예: 영어) 측면에서 매우 일관적입니다. 아니면 중국어).

2. GPT-4의 결과에 대해서만 번역된 답변이 중국어에서 생성된 답변보다 성능이 더 좋았습니다, 아마도 GPT-4가 중국어보다 더 풍부한 영어 코퍼스를 학습했기 때문에 영어 교육이 더 강력했기 때문일 것입니다. -추종능력.

부자연스러운 지시 평가 및 GPT4는 Ground Truth 응답 길이가 길어질수록 점차적으로 더 나은 성능을 보이고, 마침내 길이가 4를 초과할 때 더 높은 성능을 보여줍니다. 이는 장면이 더 창의적일 때 지시를 더 잘 따를 수 있음을 의미합니다.

서로 다른 하위 집합에서 LLaMA-GPT4와 GPT-4의 동작은 거의 동일합니다. 시퀀스 길이가 짧을 때 LLaMA-GPT4와 GPT-4는 모두 간단한 기본 사실 답변이 포함된 응답을 생성할 수 있지만 응답을 더욱 채팅처럼 만들기 위해 추가 단어를 사용하면 ROUGE-L 점수가 낮아질 수 있습니다.

위 내용은 Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7694

자바 튜토리얼

1640

Cakephp 튜토리얼

1393

라라벨 튜토리얼

1287

PHP 튜토리얼

1229

Related knowledge

Worldcoin (WLD) 가격 예측 2025-2031 : WLD가 2031 년까지 4 달러에 도달 할 것인가? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

통화에서 레버리지 교환 순위 순위 서클 통화 서클에서 상위 10 개의 레버리지 거래소의 최신 권장 사항 Apr 21, 2025 pm 11:24 PM

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다

크로스 체인 거래는 무엇을 의미합니까? 크로스 체인 거래는 무엇입니까? Apr 21, 2025 pm 11:39 PM

크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

Web3 Trading Platform Ranking_Web3 글로벌 교환 상위 10 개 요약 Apr 21, 2025 am 10:45 AM

Binance는 Global Digital Asset Trading Ecosystem의 대 군주이며, 그 특성에는 다음이 포함됩니다. 1. 평균 일일 거래량은 1,500 억 달러를 초과하여 주류 통화의 98%를 차지하며 500 개의 거래 쌍을 지원합니다. 2. 혁신 매트릭스는 파생 상품 시장, Web3 레이아웃 및 교육 시스템을 포함합니다. 3. 기술적 이점은 밀리 초에 일치하는 엔진이며, 최고 처리량은 초당 140 만 건의 트랜잭션입니다. 4. 규정 준수 진행 상황은 15 개국 라이센스를 보유하고 있으며 유럽과 미국에 준수 엔티티를 설립합니다.

Binance 전체 프로세스 전략에 대한 커널 에어 드롭 보상을받는 방법 Apr 21, 2025 pm 01:03 PM

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

'Black Monday Sell'은 Cryptocurrency 업계의 힘든 날입니다. Apr 21, 2025 pm 02:48 PM

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.

가상 통화 가격의 상승 또는 하락은 왜입니까? 가상 통화 가격의 상승 또는 하락은 왜입니까? Apr 21, 2025 am 08:57 AM

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 쿼럼 수의 사람들에게 도달 한 토큰 재구매를 소개하는 권장 사항입니다. Apr 21, 2025 pm 06:24 PM

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.

See all articles

Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.

Instruction Tuning Language Model

실험 결과

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제