상업적 용도로 자유롭게 수정할 수 있는 세계 최초의 진정한 오픈 소스 ChatGPT 대형 모델 Dolly 2.0
우리 모두 알고 있듯이, ChatGPT와 관련하여 OpenAI는 공개되지 않습니다. Meta에서 오픈 소스로 제공되는 Yangtuo 시리즈 모델은 사람들이 여전히 방법을 찾고 있는 경우 "학술 연구 응용 프로그램으로 제한"됩니다. 우회 제한, 100% 오픈 소스에 초점을 맞춘 대규모 모델이 여기에 있습니다.
4월 12일, Databricks는 2주 전에 출시된 ChatGPT와 유사한 인간 상호 작용(지시 따르기) LLM(대형 언어 모델)의 또 다른 새로운 버전인 Dolly 2.0을 출시했습니다.
Databricks는 Dolly 2.0이 업계 최초의 오픈 소스이자 지침을 준수하는 LLM이며 오픈 소스이자 상업적 목적으로 사용할 수 있는 투명하고 무료로 사용할 수 있는 데이터 세트를 기반으로 미세 조정되었다고 말합니다. 즉, API 액세스 비용을 지불하거나 제3자와 데이터를 공유하지 않고도 Dolly 2.0을 사용하여 상업용 애플리케이션을 구축할 수 있습니다.
- 프로젝트 링크: https://huggingface.co/databricks/dolly-v2-12b
- 데이터 세트: https://github.com/databrickslabs/dolly/tree/ master /data
Databricks CEO Ali Ghodsi에 따르면 상업적 목적으로 사용할 수 있는 다른 대형 모델도 있지만 "Dolly 2.0처럼 말을 하지 않습니다." 그리고 Dolly 2.0 모델을 기준으로 하면 훈련 데이터는 오픈 소스 라이선스에 따라 무료로 제공되므로 사용자는 훈련 데이터를 수정하고 개선할 수 있습니다. 따라서 자신만의 Dolly 버전을 만들 수 있습니다.
Databricks는 또한 Dolly 2.0이 미세 조정된 databricks-dolly-15k라는 데이터 세트를 출시했습니다. 이는 수천 명의 Databricks 직원이 생성한 15,000개 이상의 레코드로 구성된 모음입니다. Databricks는 이를 "대규모 언어가 ChatGPT의 마법 같은 상호 작용을 보여줄 수 있도록 특별히 설계된 최초의 오픈 소스, 인간 생성 명령 모음"이라고 부릅니다.
Dolly 2.0은 어떻게 탄생했나요지난 두 달 동안 업계와 학계는 OpenAI를 따라잡고 지침을 따르는 ChatGPT와 같은 대형 모델의 물결을 제안했습니다. 이러한 버전은 많은 정의에 의해 오픈 소스로 간주됩니다. 또는 어느 정도의 개방성 또는 제한된 액세스를 제공합니다. 그 중에서도 메타(Meta)의 LLaMA가 가장 큰 주목을 받아 알파카(Alpaca), 코알라(Koala), 비쿠나(Vicuna), 데이터브릭스(Databricks)의 돌리 1.0(Dolly 1.0) 등 더욱 개선된 모델이 대거 탄생했다.
그러나 이러한 "개방형" 모델 중 상당수는 StanfordAlpaca 프로젝트의 52,000개와 같이 상업적 사용을 제한하도록 고안된 용어가 포함된 데이터 세트에 대해 교육을 받았기 때문에 "산업적 제약"을 받고 있습니다. 질문 및 답변 데이터 세트는 OpenAI의 ChatGPT 출력을 기반으로 학습됩니다. 그리고 OpenAI의 이용 약관에는 OpenAI의 서비스를 사용하여 경쟁할 수 없다는 규칙이 포함되어 있습니다.
Databricks는 이 문제를 해결하는 방법을 생각했습니다. 새로 제안된 Dolly 2.0은 오픈 소스 EleutherAI pythia 모델 시리즈를 기반으로 하며 특히 소규모 오픈 소스 명령에 맞게 미세 조정된 120억 개의 매개변수 언어 모델입니다. 레코드 코퍼스(databricks-dolly-15k)인 이 데이터 세트는 Databricks 직원이 생성했으며 라이선스 조건에 따라 학술 또는 상업용 응용 프로그램을 포함한 모든 목적으로 사용, 수정 및 확장이 허용됩니다.
지금까지 ChatGPT의 출력에 대해 훈련된 모델은 법적 회색 영역에 있었습니다. Ghodsi는 “전체 커뮤니티가 이 문제를 조심스럽게 살펴보고 있으며 모두가 이 모델을 출시하고 있지만 그 중 어느 것도 상업적으로 이용 가능하지 않습니다.”라고 말했습니다. "그래서 우리는 매우 기대됩니다."
"다른 사람들은 모두 더 큰 것을 원하지만 사실 우리는 더 작은 것에 관심이 있습니다"라고 Ghodsi는 Dolly의 소형 규모에 대해 말했습니다. "둘째, 우리는 모든 답변을 검토했으며 품질이 높았습니다."
Ghodsi는 Dolly 2.0이 "눈덩이" 효과를 시작하여 인공 지능 분야의 다른 사람들이 참여하고 다른 대안을 제안할 수 있다고 믿습니다. . 그는 상업적 사용에 대한 제한이 극복해야 할 큰 장애물이라고 설명했습니다. "마침내 그 문제를 해결할 수 있는 방법을 찾았기 때문에 우리는 매우 기쁩니다. 사람들이 이 15,000가지 문제를 현실 세계에 적용하는 것을 보게 될 것이라고 장담합니다. 거기에 있는 모든 모델은 즉, 얼마나 많은 모델이 갑자기 마법처럼 변해 상호 작용할 수 있는지 알게 될 것입니다."
손 마찰 데이터 세트
Dolly 2.0 모델의 가중치를 다운로드하려면 Databricks Hugging Face 페이지를 방문하고 databricks-labs의 Dolly 저장소를 방문하여 databricks-dolly-15k 데이터 세트를 다운로드하세요.
"databricks-dolly-15k" 데이터 세트에는 인간이 생성한 15,000개의 고품질 프롬프트/응답 쌍이 포함되어 있습니다. 2023년 3월과 4월에 5,000명 이상의 Databricks 직원이 작성, 대규모 언어 모델 조정을 위한 특별히 고안된 지침 . 이러한 교육 녹음은 자연스럽고 표현력이 풍부하며 브레인스토밍 및 콘텐츠 생성부터 정보 추출 및 요약에 이르기까지 광범위한 행동을 나타내도록 설계되었습니다.
이 데이터세트의 라이선스 조건(Creative Commons Attribution-ShareAlike 3.0 Unported License)에 따라 누구든지 상업용 애플리케이션을 포함하여 어떤 목적으로든 이 데이터세트를 사용, 수정 또는 확장할 수 있습니다.
현재 이 데이터 세트는 최초의 오픈 소스, 인간이 생성한 명령 데이터 세트 입니다.
이러한 데이터 세트를 만드는 이유는 무엇입니까? 팀은 또한 블로그 게시물에서 그 이유를 설명했습니다.
Dolly 1.0 또는 LLM을 따르는 모든 지시어를 만드는 주요 단계는 지시어와 응답 쌍의 데이터 세트에서 모델을 훈련하는 것입니다. Dolly 1.0은 OpenAI API를 사용하여 Stanford University의 Alpaca 팀이 만든 데이터 세트를 훈련하고 사용하는 데 30달러가 듭니다.
Dolly 1.0이 출시된 후 많은 사람들이 사용해 보고자 했고, 일부 사용자들은 이 모델을 상업적으로 사용하고 싶어 했습니다.
그러나 훈련 데이터 세트에는 ChatGPT의 출력이 포함되어 있으며 Stanford 팀이 지적했듯이 서비스 약관은 누구도 OpenAI와 경쟁하는 모델을 만드는 것을 방지하려고 합니다.
이전에는 잘 알려진 모든 지침 준수 모델(Alpaca, Koala, GPT4All, Vicuna)에 이러한 제한이 적용되어 상업적 사용이 금지되었습니다. 이 문제를 해결하기 위해 Dolly 팀은 상업적 사용에 대한 제한 없이 새로운 데이터세트를 생성할 수 있는 방법을 찾기 시작했습니다.
구체적으로 팀은 OpenAI가 발표한 연구 논문을 통해 원래 InstructGPT 모델이 13,000개의 지시에 따른 행동 시연으로 구성된 데이터 세트에서 훈련되었다는 사실을 알게 되었습니다. 이에 영감을 받아 그들은 Databricks 직원의 주도로 비슷한 결과를 얻을 수 있는지 알아보기 시작했습니다.
13,000개의 질문과 답변을 생성하는 것이 생각보다 어려운 것으로 나타났습니다. 모든 답변은 독창적이어야 하며 ChatGPT 또는 웹의 어느 곳에서도 복사할 수 없기 때문에 그렇지 않으면 데이터 세트가 "오염"됩니다. 하지만 Databricks의 직원은 5,000명이 넘었고 그들은 LLM에 매우 관심이 많았습니다. 그래서 팀은 40명의 주석자가 OpenAI용으로 생성한 것보다 더 높은 품질의 데이터 세트를 생성하는 크라우드소싱 실험을 수행했습니다.
물론, 이 작업은 시간이 많이 걸리고 노동 집약적입니다. 모든 사람에게 동기를 부여하기 위해 팀에서는 대회를 마련했으며 상위 20명의 주석 작성자에게는 깜짝 상품이 제공됩니다. 동시에 그들은 7가지 매우 구체적인 작업도 나열했습니다.
- 공개 Q&A: 예를 들어 "사람들은 왜 코미디 영화를 좋아하나요?", "프랑스의 수도는 무엇인가요?" 어떤 경우에는 정답이 없고, 어떤 경우에는 전 세계의 지식이 필요합니다. ;
- 폐쇄형 질문 및 답변: 이 질문은 참고 자료의 한 단락 정보만 사용하여 답변할 수 있습니다. 예를 들어, 원자에 대한 Wikipedia 단락에서 "핵의 양성자와 중성자의 비율은 얼마입니까?"라고 질문할 수 있습니다.
- Wikipedia에서 정보 추출: 여기에서 주석자는 Wikipedia에서 정보를 가져옵니다. Wikipedia 및 단락에서 무게 또는 치수와 같은 기타 사실 정보 추출
- Wikipedia에 대한 정보 요약: 이를 위해 주석자는 Wikipedia의 단락을 제공하고 이를 짧은 요약으로 추출하도록 요청합니다. 브레인스토밍: 이 작업에는 개방형 아이디어와 관련 가능한 옵션 목록이 필요합니다. 예: "이번 주말에 친구들과 어떤 재미있는 활동을 할 수 있나요?" 또는 야채) 또는 영화 리뷰의 감정과 같은 짧은 텍스트의 속성을 판단합니다.
- 창의적인 글쓰기: 이 작업에는 시나 연애 편지와 같은 글쓰기가 포함됩니다.
- 다음은 몇 가지 예입니다.
처음에 팀에서는 결과가 10,000개에 도달하는 것에 회의적이었습니다. 그러나 야간 리더보드 플레이를 통해 일주일 만에 15,000개의 결과를 달성했습니다.
상용화 가능성
데이터 세트가 빠르게 생성된 후 팀은 상용화 적용을 고려하기 시작했습니다.
상업적으로 사용할 수 있는 오픈 소스 모델을 만들고 싶어합니다. databricks-dolly-15k는 Alpaca(Dolly 1.0이 훈련된 데이터 세트)보다 훨씬 작지만 EleutherAI pythia-12b를 기반으로 하는 Dolly 2.0 모델은 고품질 명령 따르기 동작을 보여줍니다.돌이켜보면 이는 놀라운 일이 아닙니다. 결국, 최근 몇 달 동안 발표된 많은 명령 튜닝 데이터세트에는 환각과 사실적 오류가 포함된 합성 데이터가 포함되어 있습니다.
databricks-dolly-15k는 전문가가 생성하고 품질이 높으며 대부분의 작업에 대한 긴 형식의 답변을 포함합니다.
다음은 요약 및 콘텐츠 생성에 사용되는 Dolly 2.0의 몇 가지 예입니다.
Dolly 팀은 초기 고객 피드백을 바탕으로 이와 같은 기능을 전 세계에서 사용할 수 있다고 말합니다. 광범위한 애플리케이션을 위한 기업입니다. 많은 기업이 민감한 데이터를 제3자에게 넘기는 대신 특정 도메인 애플리케이션을 위한 고품질 모델을 만들기 위한 자체 모델을 갖고 싶어하기 때문입니다.
위 내용은 상업적 용도로 자유롭게 수정할 수 있는 세계 최초의 진정한 오픈 소스 ChatGPT 대형 모델 Dolly 2.0의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.

'웨스트월드'에 익숙한 관객들은 이 쇼가 미래 세계의 거대한 하이테크 성인 테마파크를 배경으로 한다는 것을 알고 있습니다. 로봇은 인간과 유사한 행동 능력을 가지고 있으며 보고 듣는 것을 기억하고 핵심 스토리를 반복할 수 있습니다. 매일 이 로봇은 재설정되어 초기 상태로 돌아갑니다. 스탠포드 논문 "생성 에이전트: 인간 행동의 대화형 시뮬레이션"이 발표된 후 이 시나리오는 더 이상 영화와 TV 시리즈에만 국한되지 않습니다. 스몰빌의 "가상 타운" 장면 》개요 지도 용지 주소: https://arxiv.org/pdf/2304.03442v1.pdf

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

최신 AIGC 오픈소스 프로젝트인 AnimagineXL3.1을 소개하겠습니다. 이 프로젝트는 사용자에게 더욱 최적화되고 강력한 애니메이션 이미지 생성 경험을 제공하는 것을 목표로 하는 애니메이션 테마의 텍스트-이미지 모델의 최신 버전입니다. AnimagineXL3.1에서 개발 팀은 모델이 성능과 기능 면에서 새로운 수준에 도달할 수 있도록 여러 주요 측면을 최적화하는 데 중점을 두었습니다. 첫째, 이전 버전의 게임 캐릭터 데이터뿐만 아니라 다른 많은 유명 애니메이션 시리즈의 데이터도 훈련 세트에 포함하도록 훈련 데이터를 확장했습니다. 이러한 움직임은 모델의 지식 기반을 풍부하게 하여 다양한 애니메이션 스타일과 캐릭터를 더 완벽하게 이해할 수 있게 해줍니다. AnimagineXL3.1은 새로운 특수 태그 및 미학 세트를 소개합니다.

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인
