ChatGPT 출시 이후 이 기간 동안 대화 모델의 인기는 더욱 높아졌습니다. 우리는 이러한 모델의 놀라운 성능에 감탄하는 동시에 그 뒤에 숨은 엄청난 컴퓨팅 성능과 대규모 데이터 지원도 추측해야 합니다.
데이터에 관해서는 고품질 데이터가 중요합니다. 이러한 이유로 OpenAI는 데이터 및 주석 작업에 많은 노력을 기울였습니다. 여러 연구에 따르면 ChatGPT는 인간보다 더 신뢰할 수 있는 데이터 주석자입니다. 오픈 소스 커뮤니티가 ChatGPT와 같은 강력한 언어 모델에서 대량의 대화 데이터를 얻을 수 있다면 더 나은 성능으로 대화 모델을 훈련할 수 있습니다. 이는 Alpaca 모델 제품군(Alpaca, Vicuna, Koala)에 의해 입증되었습니다. 예를 들어 Vicuna는 ShareGPT에서 수집한 사용자 공유 데이터를 사용하여 LLaMA 모델에 대한 지침을 미세 조정하여 ChatGPT의 9단계 성공을 복제했습니다. 점점 더 많은 증거에 따르면 데이터는 강력한 언어 모델을 훈련하기 위한 주요 생산성이라는 사실이 입증되었습니다.
ShareGPT는 사용자가 흥미를 느끼는 ChatGPT 답변을 업로드하는 ChatGPT 데이터 공유 웹사이트입니다. ShareGPT의 데이터는 공개되어 있지만 사소하며 연구자들이 직접 수집하고 정리해야 합니다. 고품질의 광범위한 데이터 세트가 있는 경우 오픈 소스 커뮤니티는 대화 모델 개발에 드는 노력의 절반으로 두 배의 결과를 얻을 수 있습니다.
이를 바탕으로 최근 UltraChat이라는 프로젝트에서 초고품질 대화 데이터 세트를 체계적으로 구축했습니다. 프로젝트 작성자는 두 개의 독립적인 ChatGPT Turbo API를 사용하여 대화를 수행하여 여러 라운드의 대화 데이터를 생성하려고 했습니다.
구체적으로, 이 프로젝트는 오픈 소스를 구축하는 것을 목표로 합니다. 연구자가 보편적인 대화 기능을 갖춘 강력한 언어 모델을 개발하는 데 편리한 Turbo API 기반의 확장 가능한 다단계 대화 데이터입니다. 또한, 개인 정보 보호 및 기타 요소를 고려하여 프로젝트에서는 인터넷상의 데이터를 직접 프롬프트로 사용하지 않습니다. 생성된 데이터의 품질을 보장하기 위해 연구원들은 생성 프로세스에서 두 개의 독립적인 ChatGPT Turbo API를 사용했습니다. 여기서 한 모델은 사용자의 역할을 수행하여 질문이나 지침을 생성하고 다른 모델은 피드백을 생성합니다.
ChatGPT를 직접 사용하여 일부 시드 대화와 질문을 기반으로 자유롭게 생성하면 단일 주제, 반복되는 내용 등의 문제가 쉽게 발생하여 데이터 자체의 다양성을 보장하기 어렵습니다. 이를 위해 UltraChat은 대화 데이터가 다루는 주제와 작업 유형을 체계적으로 분류하고 설계했으며, 사용자 모델과 응답 모델에 대한 세부적인 프롬프트 엔지니어링도 수행했습니다.
이 세 가지 데이터 부분은 AI 모델에 대한 대부분의 사용자 요구 사항을 다룹니다. 동시에 이 세 가지 유형의 데이터는 서로 다른 과제에 직면하고 서로 다른 구성 방법이 필요합니다.
예를 들어, 첫 번째 데이터 부분의 주요 과제는 총 수십만 건의 대화에서 인간 사회의 상식을 최대한 광범위하게 다루는 방법입니다. 이를 위해 연구자들은 자동으로 생성된 주제와 Wikidata에서 파생된 항목은 필터링되고 구조화됩니다.
두 번째 및 세 번째 부분의 과제는 주로 대화의 궁극적인 목표(자료 생성 또는 자료를 다음과 같이 다시 작성)에서 벗어나지 않으면서 후속 대화에서 사용자 지침을 시뮬레이션하고 사용자 모델 생성을 최대한 다양하게 만드는 방법에서 비롯됩니다. 필수) 이러한 이유로 연구원들은 사용자 모델의 입력 프롬프트를 완전히 설계하고 실험했습니다. 구축이 완료된 후 저자들은 환각 문제를 약화시키기 위해 데이터를 후처리하기도 했습니다.
현재 프로젝트는 데이터 양이 124만 개에 이르는 처음 두 부분의 데이터를 공개했는데, 이는 오픈 소스 커뮤니티에서 가장 큰 관련 데이터 세트가 될 것입니다. 콘텐츠에는 현실 세계에서의 풍부하고 다채로운 대화가 담겨 있으며, 데이터의 마지막 부분은 향후 공개될 예정입니다.
세계 문제 데이터는 아래 그림과 같이 30개의 대표적이고 다양한 메타 주제에서 나옵니다.
다음으로 구체적인 예를 살펴보겠습니다.
UltraChat 플랫폼에서 데이터 검색 효과를 테스트했습니다. 예를 들어 "music"을 입력하면 시스템은 음악 관련 ChatGPT 대화 데이터 10,000세트를 자동으로 검색하며, 각 세트는 다단계 대화입니다.
키워드 "math"를 입력하면 검색됩니다. 결과는 3346개의 다단계 대화 그룹을 보여줍니다.
현재 UltraChat은 의료, 교육, 스포츠, 환경 보호 및 기타 주제를 포함한 다양한 정보 분야를 다루고 있습니다. 동시에 저자는 오픈 소스 LLaMa-7B 모델을 사용하여 UltraChat에서 감독된 지시 미세 조정을 수행하려고 시도했으며 단 10,000단계의 학습 후에 매우 인상적인 효과가 있음을 발견했습니다. 몇 가지 예는 다음과 같습니다.
세계 지식: 별도로 나열됨 중국과 미국의 좋은 대학 10곳이 있습니다
질문을 상상해보세요: 우주 여행이 가능해지면 어떤 결과가 나올 수 있을까요?
음절법: 고래는 물고기인가요?
가설 질문: Jackie Chan이 Bruce Lee보다 낫다는 것을 증명하세요.
전반적으로 UltraChat은 다른 채팅과 결합할 수 있는 고품질의 광범위한 ChatGPT 대화 데이터 세트입니다. 오픈 소스 대화 모델의 품질을 크게 향상시킵니다. 현재 UltraChat은 영어 버전만 출시하고 있지만 앞으로는 중국어 버전의 데이터도 출시할 예정입니다. 관심 있는 독자들은 살펴보시기 바랍니다.
위 내용은 여러 ChatGPT API를 사용하여 Tsinghua UltraChat 다단계 대화 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!