이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.-일체 포함-php.cn

텍스트 예측부터 지시사항 따르기까지

지침을 안전하게 따르세요

모델 미세 조정

핵심 요약

대화 에이전트에 대한 추가 작업에 대한 생각

집

기술 주변기기

일체 포함

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

王林

Apr 12, 2023 pm 01:13 PM

ai 기술

ChatGPT의 출현과 그에 따른 광범위한 토론으로 인해 ChatGPT의 성공으로 인해 RLHF, SFT, IFT, CoT 등과 같은 모호한 약어가 대중의 눈에 나타났습니다. 이 모호한 약어는 무엇입니까? 왜 그렇게 중요합니까? 이 기사의 저자는 이러한 주제에 관한 모든 중요한 논문을 검토하고 분류하고 요약했습니다.

ChatGPT는 LM(제1 언어 모델) 기반 대화 에이전트가 아닙니다. 실제로 Meta BlenderBot, Google LaMDA, DeepMind의 Sparrow 및 Anthropic Assistant를 포함하여 많은 기관에서 OpenAI 이전에 언어 모델 대화 에이전트를 출시했습니다. 일부 조직에서는 오픈 소스 챗봇 구축 계획을 발표하고 로드맵을 공개했습니다(예: LAION의 Open-Assistant). 확실히 같은 일을 하는 다른 조직도 있지만 발표되지는 않았습니다.

아래 표는 위에서 언급한 AI 챗봇을 공개 접근 가능 여부, 훈련 데이터, 모델 아키텍처, 평가 세부 사항을 기준으로 비교한 것입니다. ChatGPT에 대한 관련 데이터는 없습니다. 여기에 사용된 정보는 OpenAI의 미세 조정 모델이며 ChatGPT의 기반으로 간주되는 InstructGPT입니다.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

학습 데이터, 모델 및 미세 조정에는 많은 차이가 있지만 이러한 챗봇에는 몇 가지 공통점이 있습니다. 즉, 지시를 따릅니다. 즉, 사용자의 지시에 따라 응답합니다. 예를 들어, ChatGPT에게 넛지에 관한 시를 써 달라고 요청하세요.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

텍스트 예측부터 지시사항 따르기까지

일반적으로 말해서 모델이 사용자의 지시를 효율적으로 따르기에는 기본 언어 모델링의 목표로는 충분하지 않습니다. 모델 작성자는 또한 IFT(Instruction Fine-Tuning)를 사용합니다. 이는 다양한 작업에 대해 기본 모델을 미세 조정할 수 있으며 감정 분석, 텍스트 분류, 요약과 같은 전통적인 NLP 작업에도 적용할 수 있습니다.

IFT는 크게 명령어, 입력, 출력의 세 부분으로 구성됩니다. 입력은 선택 사항이며 일부 작업에는 위의 ChatGPT 예와 같이 지침만 필요합니다. 입력과 출력이 인스턴스를 구성합니다. 특정 명령어에는 여러 개의 입력과 출력이 있을 수 있습니다. 관련 사례는 다음과 같다([Wang et al., ‘22]).

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

IFT 데이터는 일반적으로 인간 지침과 언어 모델을 사용하여 부트스트랩됩니다. 부트스트래핑의 경우 LM은 샘플이 없는 프롬프트를 기반으로 새로운 지침, 입력 및 출력을 생성합니다. 각 라운드마다 모델을 작성하고 생성하는 사람 중에서 선택한 샘플이 모델에 표시됩니다. 데이터 세트에 대한 인간과 모델의 기여도는 아래 그림과 같이 스펙트럼으로 표현될 수 있습니다.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

하나는 부자연스러운 지침과 같이 순수하게 모델에서 생성된 IFT 데이터 세트이고, 다른 하나는 커뮤니티의 노력과 슈퍼 내추럴 지침과 같이 수동으로 생성된 지침의 모음입니다. 그 사이에 고품질 시드 데이터 세트를 선택한 다음 Self-instruct와 같은 부트스트랩을 선택합니다. IFT용 데이터 세트를 수집하는 또 다른 방법은 다양한 작업(프롬프트 포함)에 대해 기존의 고품질 크라우드소싱 NLP 데이터 세트를 사용하고 이러한 데이터 세트를 통합 패턴 또는 다른 템플릿을 사용하여 지침으로 사용하는 것입니다. 관련 작업에는 T0, 자연 지침 데이터 세트, FLAN LM 및 OPT가 포함됩니다. -IML.

지침을 안전하게 따르세요

LM 미세 조정된 지침을 사용한다고 해서 항상 유용하고 안전한 응답이 생성되는 것은 아닙니다. 이러한 동작의 예로는 잘못된 응답(속임수), 항상 "죄송합니다. 이해가 안 됩니다"와 같은 잘못된 응답을 제공하거나 민감한 주제에 대한 사용자 입력에 안전하지 않게 응답하는 등이 있습니다.

이 문제를 해결하기 위해 모델 개발자는 SFT(감독 미세 조정)를 사용하여 사람이 레이블을 지정한 고품질 데이터에 대한 기본 언어 모델을 미세 조정하여 효과적이고 안전한 응답을 얻습니다.

SFT와 IFT는 밀접하게 연결되어 있습니다. 명령어 조정은 감독된 미세 조정의 하위 집합으로 볼 수 있습니다. 최근 문헌에서 SFT 단계는 일반적으로 IFT를 따르는 교육별 주제보다는 안전 주제에 사용됩니다. 이 분류와 설명은 앞으로 더 명확한 사용 사례와 방법을 갖게 될 것입니다.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

Google의 LaMDA는 일련의 규칙에 따라 안전하게 주석이 달린 대화 데이터 세트를 미세 조정합니다. 이러한 규칙은 일반적으로 모델 작성자가 미리 정의하고 제정하며 유해성, 차별, 잘못된 정보 등 광범위한 주제를 다룹니다.

모델 미세 조정

반면 OpenAI의 InstructGPT, DeepMind의 Sparrow 및 Anthropic의 ConstitutionalAI는 모두 인간 피드백(RLHF) 기술의 강화 학습을 사용합니다. RLHF에서 모델 응답은 인간 피드백(예: 더 나은 답변 선택)을 기반으로 순위가 매겨지고, 모델은 이러한 주석이 달린 응답으로 훈련되어 스칼라 보상을 RL 최적화 프로그램에 반환하고, 마지막으로 대화형 에이전트가 강화 학습을 통해 훈련되어 시뮬레이션됩니다. 선호 모델.

CoT(Chain-of-thought)는 대화형 에이전트에서 단계별 추론을 도출하여 출력을 생성하는 특수한 명령 시연 사례입니다. CoT로 미세 조정된 모델은 단계별 추론을 통해 사람이 주석을 추가한 지침의 데이터 세트를 사용합니다. 아래 예에서 볼 수 있듯이 주황색 마커는 명령을 나타내고, 분홍색 마커는 입력 및 출력을 나타내고, 파란색 마커는 CoT 추론을 나타냅니다.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

CoT로 미세 조정된 모델은 상식, 산술, 상징적 추론과 관련된 작업에서 더 나은 성능을 발휘합니다. CoT를 사용한 미세 조정은 무해성을 달성하는 데 매우 효과적인 것으로 나타났으며(때로는 RLHF보다 우수함) 모델은 "죄송합니다. 이 질문에 답변할 수 없습니다" 응답을 생성하는 데 주저하지 않습니다.

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

핵심 요약

이 글의 주요 내용을 요약하면 다음과 같습니다.

1 사전 학습 데이터와 비교하면 데이터의 아주 작은 부분만 있습니다. 지침을 미세 조정하는 데 필요합니다.

2. 감독된 미세 조정은 수동 주석을 사용하여 모델 출력을 더욱 안전하고 유용하게 만듭니다.

3. CoT 미세 조정은 단계별 사고 작업에서 모델의 성능을 향상하고 민감한 주제에 대한 잘못된 응답이나 회피를 줄입니다.

대화 에이전트에 대한 추가 작업에 대한 생각

마지막으로 저자는 향후 대화 에이전트 개발에 대한 자신의 생각을 제시했습니다.

1. 인간의 피드백을 통해 학습하는 데 RL이 얼마나 중요합니까? IFT나 SFT에서 고품질 데이터를 훈련하면 RLHF와 동일한 성능을 얻을 수 있나요?

2. LaMDA에서 SFT를 사용하는 것과 비교하여 Sparrow에서 SFT+RLHF를 사용하는 것이 얼마나 안전한가요?

3. IFT, SFT, CoT 및 RLHF에는 어떤 수준의 사전 교육이 필요합니까? 트레이드오프란 무엇입니까? 사용해야 하는 가장 좋은 기본 모델은 무엇입니까?

4. 이 기사에 소개된 모델 중 다수는 신중하게 설계되었으며, 엔지니어는 처리된 문제를 기반으로 실패로 이어지는 패턴(프롬프트 및 방법)을 구체적으로 수집합니다. 이러한 방법의 효과를 어떻게 체계적으로 문서화하고 재현할 수 있습니까?

위 내용은 이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7455

Cakephp 튜토리얼

1375

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

설치 후 MySQL을 사용하는 방법 Apr 08, 2025 am 11:48 AM

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? Apr 07, 2025 pm 09:36 PM

요약 : vue.js 문자열 배열을 객체 배열로 변환하는 다음 방법이 있습니다. 기본 메소드 : 정기적 인 형식의 데이터에 맞게 맵 함수를 사용하십시오. 고급 게임 플레이 : 정규 표현식을 사용하면 복잡한 형식을 처리 할 수 있지만 신중하게 작성하고 고려해야합니다. 성능 최적화 : 많은 양의 데이터를 고려하면 비동기 작업 또는 효율적인 데이터 처리 라이브러리를 사용할 수 있습니다. 모범 사례 : 명확한 코드 스타일, 의미있는 변수 이름과 주석을 사용하여 코드를 간결하게 유지하십시오.

Vue Axios의 시간 초과를 설정하는 방법 Apr 07, 2025 pm 10:03 PM

vue axios의 타임 아웃을 설정하려면 axios 인스턴스를 생성하고 시간 초과 옵션을 지정할 수 있습니다. 글로벌 설정에서 : vue.prototype. $ axios = axios.create ({timeout : 5000}); 단일 요청 : this. $ axios.get ( '/api/user', {timeout : 100000}).

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 Apr 08, 2025 pm 12:27 PM

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

See all articles

이러한 기술은 ChatGPT 및 잠재적 경쟁업체에서 사용됩니다.

텍스트 예측부터 지시사항 따르기까지

지침을 안전하게 따르세요

모델 미세 조정

핵심 요약

대화 에이전트에 대한 추가 작업에 대한 생각

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제