요즘 제너레이티브 AI 트랙이 뜨겁습니다. PitchBook 통계에 따르면 생성 AI 트랙은 2022년에 총 약 14억 달러의 자금 조달을 받게 되며 이는 지난 5년간의 총액에 거의 도달합니다. OpenAI, Stability AI 등 스타 기업과 Jasper, Regie.AI, Replika 등 기타 스타트업도 모두 자본 지원을 받았습니다.
금융 금액과 시간의 관계 그래프
Stability AI는 2022년 10월 약 1억 달러의 자금 조달을 받아 사용자가 입력한 텍스트 설명을 기반으로 이미지를 생성할 수 있는 오픈 소스 모델 Stable Diffusion을 출시했습니다. AI 회화 분야를 폭발시킨다. ChatGPT가 공개 베타를 발표한 지 5일 만인 2022년 11월 30일, 전 세계 사용자 수가 100만 명을 넘어섰습니다. 출시된 지 40일도 채 되지 않아 일일 활성 사용자가 1,000만 명을 넘어섰습니다. 2023년 3월 15일 이른 아침, OpenAI는 현재 가장 강력한 GPT 시리즈 모델인 GPT-4를 출시했습니다. 이는 이미지와 텍스트 입력을 수용하고 텍스트 출력을 생성할 수 있는 대규모 다중 모드 모델을 제공하며 이는 파괴적인 영향을 미칩니다. 업계에서. 2023년 3월 17일 Microsoft는 Microsoft 365 Copilot 컨퍼런스를 개최하고 OpenAI의 GPT-4 모델을 Office 제품군에 공식 설치하고 새로운 AI 기능인 Copilot을 출시했습니다. PPT를 만들고 카피를 작성할 수 있을 뿐만 아니라 분석을 수행하고 비디오를 생성할 수도 있습니다. 또한 국내 주요 제조사들도 ChatGPT와 유사한 제품 출시를 발표했다. 2월 8일, 알리바바 전문가들은 다모 아카데미가 ChatGPT와 유사한 대화형 로봇을 개발하고 있으며 테스트를 위해 회사 내 직원들에게 공개했다는 소식을 전했습니다. AI 대형 모델 기술과 DingTalk 생산성 도구의 긴밀한 결합이 가능합니다. 2월 8일, JD.com 부사장 He Xiaodong은 다음과 같이 솔직하게 말했습니다. JD.com은 ChatGPT 분야에서 풍부한 시나리오와 고품질 데이터를 보유하고 있습니다. 2월 9일 텐센트 관계자는 “텐센트도 현재 ChatGPT 및 AI 기반 콘텐츠와 유사한 제품에 대한 계획을 갖고 있으며, 특별 연구도 순조롭게 진행되고 있다”고 말했다. NetEase는 자사의 교육 사업이 AI 말하기 교사, 에세이 채점 및 평가 등을 포함하되 이에 국한되지 않는 AI 생성 콘텐츠를 통합할 것이라고 밝혔습니다. 3월 16일, Baidu는 대규모 언어 모델 및 생성 AI 제품인 "Wen Xin Yi Yan"을 공식 출시했습니다. 출시 이틀 후 12개 회사가 첫 번째 계약 협력을 완료하고 Baidu 지능형 클라우드 Wen Xin Yi Yan API 호출을 신청했습니다. 테스트한 회사 수는 90,000개에 달했습니다.
현재 대형 모델은 점차 우리 생활 속으로 파고들고 있습니다. 앞으로는 사회 각계각층이 지각변동을 겪을 가능성이 높습니다. ChatGPT를 예로 들면 다음과 같은 측면이 포함됩니다.
여기서 주요 논의는 대규모 언어 모델의 구현이지만 실제로 다른 대규모 다중 모드 모델(오디오, 비디오, 그림)에도 광범위한 적용 시나리오가 있다는 점에 유의해야 합니다.
Google에서 출시. LaMDA 모델은 변환기 프레임워크를 기반으로 하며 1,370억 개의 모델 매개변수를 갖고 있으며 텍스트로 장거리 종속성을 모델링할 수 있는 기능을 갖추고 있습니다. 모델은 대화를 통해 학습됩니다. 이는 주로 사전 훈련과 미세 조정의 두 가지 프로세스를 포함합니다. 사전 훈련 단계에서는 언어 모델(LM)을 훈련의 목적 함수로 사용하여 최대 1.56T의 공개 대화 데이터 세트와 웹 페이지 텍스트를 사용했습니다. 즉, 목표는 다음 문자(토큰)를 예측하는 것입니다. 미세 조정 단계에서 그들은 언어 모델에 인간의 선호도를 부여하기 위해 응답 속성(민감도, 안전성 등) 점수 매기기와 같은 여러 작업을 설계했습니다. 아래 그림은 미세 조정 작업의 한 유형을 보여줍니다.
LaMDA 모델 사전 훈련 단계
LaMDA 모델 미세 조정 단계의 작업 중 하나
LaMDA 모델은 대화 생성 작업에 중점을 두지만 종종 사실 오류를 범합니다. Google은 올해 LaMDA 모델을 기반으로 하는 Bard(실험적인 대화형 AI 서비스)를 출시했습니다. 그러나 바드의 기자회견에서 바드는 사실적 오류를 범해 수요일 구글 주가가 폭락해 장중 8% 이상 하락해 리프레시 당일 약 98달러까지 떨어졌고, 시가총액은 1100억 달러 증발했다. 실망스럽다.
InstructGPT 모델은 GPT 아키텍처를 기반으로 하며 주로 지도형 미세 조정(Supervise Fune-Tuning, SFT)과 인간 피드백 강화 학습(Reinforce Learning Human Fune-tuning, RLHF) . InstructGPT가 제공하는 대화형 제품인 ChatGPT는 언어 텍스트 생성에 중점을 두고 있으며 코드를 생성하고 간단한 수학 연산을 수행할 수도 있습니다. 특정 기술 세부 사항은 이전 두 호에서 자세히 논의되었습니다. 독자는 여기에서 읽을 수 있으며 여기서 반복하지는 않습니다.
InstructGPT 모델 훈련 흐름도
Cluade 모델 훈련 흐름도
Cluade는 Anthropic Company의 대화형 제품입니다. ChatGPT와 마찬가지로 Cluade는 GPT 프레임워크를 기반으로 하며 단방향 언어 모델입니다. 그러나 ChatGPT와 달리 감독된 미세 조정 및 AI 피드백을 통한 강화 학습을 통해 주로 훈련됩니다. 감독 미세 조정 단계에서는 먼저 유해 정보 금지, 인종 편견 금지 등과 같은 일련의 규칙(헌법)을 공식화한 다음 이러한 규칙을 기반으로 감독 데이터를 얻습니다. 그런 다음 AI가 응답의 품질을 판단하고 강화 학습을 위한 데이터 세트를 자동으로 훈련하게 합니다.
ChatGPT에 비해 Claude는 부적절한 요청을 더 명확하게 거부할 수 있고 문장 간의 연결도 더 자연스럽습니다. 클로드는 자신의 능력을 넘어서는 문제에 직면했을 때 기꺼이 목소리를 높였습니다. 현재 Cluade는 아직 내부 테스트 단계에 있습니다. 그러나 Scale Sepllbook 팀원의 내부 테스트 결과에 따르면 ChatGPT와 비교하여 Claude는 테스트된 12개 작업 중 8개에서 더 강했습니다.
국내외 대형 언어 모델에 대한 통계와 모델 성능, 오픈소스 현황 등을 보유하고 있습니다.
중국에서 인기 있는 대형 언어 모델
해외에서 인기 있는 대형 언어 모델
대형 언어 모델에는 퓨샷 학습, 제로샷을 포함하되 이에 국한되지 않는 다양한 기능이 있음을 알 수 있습니다. 마이그레이션 등 기다려주세요. 그러면 매우 자연스러운 질문이 생깁니다. 이러한 능력은 어떻게 나타나는가? 대규모 언어 모델의 힘은 어디에서 오는가? 다음으로 우리는 위의 의문점에 답하려고 노력합니다.
다음 그림은 성숙한 대형 언어 모델과 그 진화 과정을 보여줍니다. 요약하면 대부분의 모델은 사전 훈련, 지침 미세 조정 및 정렬의 세 단계를 거칩니다. 대표적인 모델로는 Deepmind의 Sparrow와 OpenAI의 ChatGPT가 있습니다.
인기 있는 대형 언어 모델의 진화 다이어그램
그럼 각 단계 뒤에는 모델이 어떤 종류의 기능을 달성할 수 있나요? 에든버러 대학의 푸 야오(Fu Yao) 박사는 걸음과 능력 사이의 상응 관계에 대해 자신이 믿는 바를 요약하여 우리에게 영감을 주었습니다.
1. 사전 훈련 단계의 목표는 강력한 기본 모델을 얻는 것입니다. 이에 따라 이 단계에서 모델이 입증하는 기능에는 언어 생성, 상황 학습 기능, 세계 지식, 추론 기능 등이 포함됩니다. 이 단계의 대표적인 모델로는 GPT-3, PaLM 등이 있습니다.
2. 지시 미세 조정 단계. 이 단계의 목표는 몇 가지 긴급 능력을 잠금 해제하는 것입니다. 여기서 창발능력이란 구체적으로 소형모델에는 없고 대형모델만이 갖고 있는 능력을 말한다. 명령어 미세 조정을 거친 모델은 기본 모델에 없는 기능을 갖습니다. 예를 들어, 새로운 지침을 구성함으로써 모델은 새로운 작업을 해결할 수 있습니다. 또 다른 예는 사고 사슬의 능력입니다. 즉, 모델에 추론 과정을 보여줌으로써 모델은 올바른 추론을 모방할 수도 있습니다. 대표적인 모델은 다음과 같습니다. InstructGPT, Flan 등
정렬 단계. 이 단계의 목표는 모델이 유익한 답변을 생성하고 차별적 발언을 생성하지 않는 등 인간적인 가치를 갖도록 만드는 것입니다. 정렬 단계는 모델에 "개성"을 부여한다고 생각할 수 있습니다. 이러한 유형의 대표적인 모델이 ChatGPT이다.
대형 언어 모델의 3단계. 사진은 "푸야오: 대형 언어 모델 능력의 근원에 대하여"에서 가져온 것입니다
일반적으로 위의 세 단계는 서로 보완적이며 필수입니다. 사전 학습 단계에서 충분히 강력한 기본 모델을 확보한 경우에만 명령어 미세 조정을 통해 언어 모델의 다른 기능을 자극(또는 향상)할 수 있습니다. 정렬 단계에서는 인간 사회의 일부 요구 사항을 더 잘 준수할 수 있도록 모델에 특정 "특성"을 제공합니다.
대규모 언어 모델 기술은 편리함을 제공하지만 위험과 과제도 내포하고 있습니다. 기술적 수준에서는 유해한 발언 등 GPT에서 생성된 콘텐츠의 신뢰성을 보장할 수 없습니다. 사용 수준에서 사용자는 교육 및 과학 연구와 같은 분야에서 AI 생성 텍스트를 남용할 수 있습니다. 현재 많은 기업과 기관에서 ChatGPT 사용을 제한하기 시작했습니다. Microsoft와 Amazon은 기밀 정보 유출에 대한 우려로 인해 회사 직원이 ChatGPT에 민감한 데이터를 공유하는 것을 금지합니다. 홍콩 대학교는 홍콩 대학교의 모든 수업, 과제 및 평가에서 ChatGPT 또는 기타 인공 지능 도구를 사용하는 것을 금지합니다. 주로 업계 관련 업무를 소개합니다.
GPTZero: GPTZero는 최초의 텍스트 생성 및 식별 도구입니다. Edward Tian(미국 프린스턴 대학 CS 학부생)이 운영하는 온라인 웹사이트(https://gptzero.me/)입니다. 그 원칙은 주어진 콘텐츠를 작성한 사람을 결정하는 지표로 PPL(텍스트 혼란)에 의존합니다. 그 중 Perplexity는 본질적으로 문장이 나타날 확률을 계산하는 언어 모델의 품질을 평가하는 데 사용됩니다.
GPTZero 웹사이트 인터페이스
(여기에서는 ChatGPT를 사용하여 뉴스 보고서를 생성하고 GPTZero가 텍스트 생성 여부를 결정하도록 합니다.)
GPT2 출력 감지기: 이 도구는 OpenAI에서 출시되었습니다. RoBerta에서 미세 조정된 "GPT2 생성 콘텐츠" 및 Reddit 데이터 세트를 활용하여 탐지 분류기를 학습합니다. 즉, "마법으로 마술과 싸우다"이다. 또한 공식 홈페이지에서는 텍스트(토큰)가 50자를 초과해야 예측 결과의 신뢰성이 더 높아진다는 점을 상기시킵니다.
GPT2 출력 감지기 웹사이트 인터페이스
AI 텍스트 분류기: 이 도구는 OpenAI에서 출시되었습니다. 동일한 주제에 대한 인간의 글쓰기 텍스트와 AI 글쓰기 텍스트를 수집하는 것이 원칙입니다. 각 텍스트를 프롬프트와 응답 쌍으로 나누고, 미세 조정(예: GPT가 예/아니요를 생성하도록 허용) 후 GPT가 답변을 생성할 확률을 결과 임계값으로 둡니다. 도구의 분류는 매우 상세하며 결과에는 AI에 의해 생성될 가능성이 매우 낮음(임계값 0.98).
AI Text Classifier 웹사이트 인터페이스
대형 언어 모델에는 뛰어난 제로샷 학습, 도메인 마이그레이션, 사고 체인 기능 등 소규모 모델에는 없는 새로운 기능이 있습니다. 대형 모델의 기능은 실제로 사전 훈련, 명령어 미세 조정 및 정렬에서 비롯됩니다. 이 세 가지 프로세스는 밀접하게 연관되어 있으며 오늘날의 매우 강력한 대형 언어 모델을 가능하게 했습니다.
대형 언어 모델(GPT 시리즈)에는 현재 신뢰도 업데이트, 형식적 추론, 인터넷 검색 등의 기능이 없습니다. 일부 전문가들은 지식을 모델 외부로 오프로드할 수 있다면 매개변수 수가 크게 줄어들 것이라고 믿고 있으며, 그래야만 대규모 언어 모델이 진정으로 한 단계 더 나아갈 수 있습니다.
합리적인 감독과 거버넌스 하에서만 인공지능 기술은 사람들에게 더 나은 서비스를 제공할 수 있습니다. 중국에서 대규모 모델을 개발하려면 갈 길이 멀다!
[1] https://stablediffusionweb.com
[2] https://openai.com/product/gpt-4
[3] LaMDA: 대화 상자 응용 프로그램을 위한 언어 모델, Arxiv 2022.10
[4] 헌법적 AI: AI 피드백의 무해함, Arxiv 2022.12
[5] https://scale.com/blog/chatgpt-vs-claude#Calculation
[6] Guolian Securities: "ChatGPT 트렌드가 도래했습니다. 상용화 가속화"
[7] Guotai Junan Securities: "ChatGPT Research Framework 2023"
[8] Fu Yao: 사전 훈련, 지침 미세 조정, 정렬, 전문화: 대규모 언어 모델 기능의 소스 https:/ / www.bilibili.com/video/BV1Qs4y1h7pn/?spm_id_from=333.880.my_history.page.click&vd_source=da8bf0b993cab65c4de0f26405823475
[9] 10,000 단어 길이의 기사 분석! 꼭 알아야 할 GPT-3/ChatGPT 재현 및 사용 https://mp.weixin.qq.com/s/ILpbRRNP10Ef1z3lb2CqmA
위 내용은 ChatGPT 특별 주제: 대규모 언어 모델의 기능과 미래의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!