GPT4All은 대량의 깔끔한 보조 데이터(코드, 스토리 및 대화 포함)를 기반으로 훈련된 챗봇입니다. 데이터에는 약 800,000개의 GPT-3.5-Turbo 생성 데이터가 포함되어 있으며 M1에서 실행될 수 있습니다. Mac, Windows 및 기타 환경. 아마도 이름에서 알 수 있듯이 누구나 개인 GPT를 사용할 수 있는 시대가 온 것 같습니다.
OpenAI가 ChatGPT를 출시한 이후 최근 몇 달 동안 챗봇의 인기가 점점 높아지고 있습니다.
ChatGPT는 강력하지만 OpenAI가 이를 오픈 소스로 만드는 것은 거의 불가능합니다. 얼마 전 Meta에서 오픈소스로 공개했던 LLaMA 등 많은 사람들이 오픈소스 작업을 하고 있습니다. 이는 70억에서 650억에 이르는 매개변수 수량을 갖는 일련의 모델에 대한 일반적인 용어입니다. 그 중 130억 개의 매개변수 LLaMA 모델은 "대부분의 벤치마크에서" 1,750억 개의 매개변수 GPT-3보다 성능이 뛰어납니다.
LLaMA의 오픈 소스는 많은 연구자들에게 도움이 되었습니다. 예를 들어 Stanford는 LLaMA에 명령 조정을 추가하고 Alpaca(LLaMA 7B 기반)라는 새로운 70억 개의 매개변수 모델을 훈련했습니다. 결과는 7B 매개변수만으로 구성된 경량 모델인 Alpaca의 성능이 GPT-3.5와 같은 초대형 언어 모델과 비슷하다는 것을 보여줍니다.
또 다른 예로, 다음에 소개할 모델인 GPT4All 역시 LLaMA를 기반으로 한 새로운 7B 언어 모델입니다. 프로젝트가 시작된 지 이틀 만에 스타 수가 7.8,000개를 넘어섰습니다.
프로젝트 주소: https://github.com/nomic-ai/gpt4all
간단히 말하면 GPT4All은 텍스트 질문, 스토리 설명 등을 포함하여 GPT-3.5-Turbo의 800,000개 데이터로 훈련되었습니다. 대화와 코드를 켜십시오.
프로젝트에 따르면 M1은 Mac, Windows 및 기타 환경에서 실행될 수 있습니다.
먼저 효과부터 살펴볼까요? 아래 그림에 표시된 것처럼 사용자는 모델에게 "노트북에서 대규모 언어 모델을 실행할 수 있습니까?"라고 묻는 등 아무런 장벽 없이 GPT4All과 통신할 수 있습니다. GPT4All의 대답은 "예, 노트북을 사용하여 훈련하고 신경망 또는 다른 자연어(예: 영어 또는 중국어)에 대한 기계 학습 모델을 테스트합니다. 중요한 것은 이러한 모델의 크기를 수용할 수 있는 충분한 사용 가능한 메모리(RAM)가 필요하다는 것입니다..."
다음으로, 필요한 메모리 양을 정확히 알지 못하는 경우 GPT4All에 계속 문의하면 답변을 얻을 수도 있습니다. 결과로 볼 때 GPT4All의 여러 라운드 대화 수행 능력은 여전히 매우 강력합니다.
M1 Mac의 실시간 샘플링
어떤 사람들은 이 연구를 "게임 체인저"라고 부릅니다. GPT4All의 축복으로 이제 MacBook에서 로컬로 GPT를 실행할 수 있습니다.
Similar GPT-4에 GPT4All은 "기술 보고서"도 제공합니다.
기술 보고서 주소: https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf
이 예비 기술 보고서는 GPT4All의 구성 세부 사항을 간략하게 설명합니다. 연구원들은 공개 연구와 재현성을 촉진하기 위해 수집된 데이터, 데이터 랭글링 절차, 훈련 코드 및 최종 모델 가중치를 공개했습니다. 또한 모델의 양자화된 4비트 버전을 출시했습니다. 이는 거의 누구나 CPU에서 모델을 실행할 수 있음을 의미합니다.
다음으로, 이 보고서에는 어떤 내용이 적혀 있는지 살펴보겠습니다.
1. 데이터 수집 및 정렬
연구원들은 2023년 3월 20일부터 2023년 3월 26일까지 GPT-3.5-Turbo OpenAI API를 사용하여 약 100만 쌍의 프롬프트 답변을 수집했습니다.
먼저 연구원들은 공개적으로 사용 가능한 세 가지 데이터 세트를 활용하여 다양한 질문/프롬프트 샘플을 수집했습니다.
Stanford University Alpaca 프로젝트(Taori et al., 2023) 참조, 연구원들은 상당한 비용을 지불함 데이터 준비 및 큐레이션에 주의를 기울입니다. 프롬프트에서 생성된 쌍의 초기 데이터세트를 수집한 후 데이터를 Atlas에 로드하여 정리하고 정리했으며, GPT-3.5-Turbo가 프롬프트에 응답하지 못하고 잘못된 형식의 출력을 생성한 샘플을 모두 제거했습니다. 이렇게 하면 총 샘플 수가 806199개의 고품질 프롬프트 생성 쌍으로 줄어듭니다. 다음으로, 출력 다양성이 매우 낮았기 때문에 최종 훈련 데이터 세트에서 전체 Bigscience/P3 하위 집합을 제거했습니다. P3에는 GPT-3.5-Turbo에서 짧고 균일한 응답을 생성하는 많은 균일한 프롬프트가 포함되어 있습니다.
이 제거 방법으로 그림 2에 표시된 대로 437,605개의 프롬프트 생성 쌍의 최종 하위 집합이 생성되었습니다.
모델 훈련
연구원들은 LLaMA 7B 인스턴스에서 여러 모델을 미세 조정했습니다(Touvron et al., 2023). 원래 공개 릴리스 관련 모델은 LoRA(Hu et al., 2021)를 통해 4개 에포크 동안 437,605개의 후처리 사례에 대해 학습되었습니다. 자세한 모델 하이퍼파라미터 및 학습 코드는 관련 리소스 라이브러리 및 모델 학습 로그에서 확인할 수 있습니다.
재현성
연구원들은 커뮤니티가 재현할 수 있도록 모든 데이터(미사용 P3 세대 포함), 학습 코드 및 모델 가중치를 공개했습니다. 관심 있는 연구자는 Git 저장소에서 최신 데이터, 교육 세부 정보 및 체크포인트를 찾을 수 있습니다.
비용
연구원들이 이러한 모델을 구축하는 데 약 4일이 걸렸으며 GPU 비용은 800달러(몇 가지 실패한 교육을 포함하여 Lambda Labs 및 Paperspace에서 임대)였으며 추가로 500달러의 OpenAI API 비용이 발생했습니다.
최종 출시 모델 gpt4all-lora는 총 $100의 비용으로 Lambda Labs의 DGX A100 8x 80GB에서 약 8시간 동안 학습할 수 있습니다.
이 모델은 일반 노트북에서도 구동이 가능하다는 네티즌의 말처럼 "전기세 외에는 비용이 들지 않습니다."
연구원은 SelfInstruct 논문을 사용했습니다(Wang et al., 2022). 모델의 예비 평가는 인간 평가 데이터를 대상으로 수행되었습니다. 보고서는 또한 이 모델의 실제 난처함을 가장 잘 알려진 공개 알파카-로라 모델(huggingface 사용자 chainyo 제공)과 비교합니다. 그들은 모든 모델이 소수의 작업에 대해 매우 큰 혼란을 가지고 있음을 발견했으며 최대 100까지 보고했습니다. 이렇게 수집된 데이터 세트에 대해 미세 조정된 모델은 Alpaca에 비해 Self-Instruct 평가에서 낮은 복잡성을 보여주었습니다. 연구원들은 이 평가가 완전하지 않으며 추가 평가의 여지가 여전히 있다고 말합니다. 독자들이 로컬 CPU(Github에서 사용 가능한 문서)에서 모델을 실행하고 해당 기능에 대한 정성적인 감각을 얻는 것을 환영합니다.
마지막으로, 특히 정렬 및 해석 가능성 분야에서 공개 LLM 연구를 가속화하기 위해 저자가 데이터 및 교육 세부 정보를 게시했다는 점에 유의하는 것이 중요합니다. GPT4모든 모델 중량 및 데이터는 연구 목적으로만 사용되며 상업적 용도로 사용이 허가됩니다. GPT4All은 비상업적 라이선스를 보유한 LLaMA를 기반으로 합니다. 보조 데이터는 OpenAI와 상업적으로 경쟁하는 모델 개발을 금지하는 OpenAI의 GPT-3.5-Turbo에서 수집되었습니다.
위 내용은 노트북에서 실행할 수 있는 ChatGPT를 대체할 수 있는 기술 보고서가 첨부되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!