ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

PHPz
풀어 주다: 2023-04-27 20:46:05
앞으로
2207명이 탐색했습니다.

지난해 12월 1일 OpenAI는 인공지능 채팅 프로토타입인 ChatGPT를 출시했는데, 이는 아티스트를 실업자로 만드는 AIGC와 마찬가지로 AI 커뮤니티에서도 다시 한 번 주목을 받으며 큰 화제를 불러일으켰습니다.

ChatGPT는 대화 생성에 초점을 맞춘 언어 모델입니다. 사용자의 텍스트 입력을 기반으로 해당 지능형 답변을 생성할 수 있습니다.

이 답변은 짧은 단어일 수도 있고 긴 에세이일 수도 있습니다. 그 중 GPT는 Generative Pre-trained Transformer(Generative Pre-trained Transformation Model)의 약어입니다.

ChatGPT는 이미 만들어진 수많은 텍스트 및 대화 모음(예: Wiki)을 통해 학습함으로써 사람처럼 즉석 대화를 할 수 있고 다양한 질문에 유창하게 대답할 수 있습니다. (물론 응답 속도는 아직 인간보다 느리다) 영어든 다른 언어(중국어, 한국어 등)든, 역사 질문에 답하는 것부터 이야기를 쓰는 것, 심지어 비즈니스 글쓰기까지. 계획과 산업 분석, "거의" 모든 것을 할 수 있습니다. 일부 프로그래머는 ChatGPT에 프로그램 수정에 대한 대화를 게시하기도 했습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

ChatGPT와 AIGC의 결합

ChatGPT는 다른 AIGC 모델과 함께 사용하여 더욱 멋지고 실용적인 기능을 얻을 수도 있습니다.

예를 들어 거실 디자인 도면은 위의 대화를 통해 생성됩니다. 이를 통해 AI 애플리케이션이 고객과 소통하는 능력이 크게 향상되어 AI의 대규모 구현이 시작되는 것을 볼 수 있습니다.

1. ChatGPT의 계승과 특징


ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

▌1.1 OpenAI 계열

먼저 OpenAI가 누구인지 알아보겠습니다.

OpenAI는 샌프란시스코에 본사를 두고 있으며 2015년 Tesla의 Musk, Sam Altman 및 기타 투자자들이 공동 창립했습니다. 목표는 모든 인류에게 혜택을 주는 AI 기술을 개발하는 것입니다. 머스크는 회사 발전 방향의 차이로 인해 2018년 회사를 떠났다.

이전 OpenAI는 자연어 처리 모델 GPT 시리즈를 출시한 것으로 유명했습니다. OpenAI는 2018년부터 기사, 코드, 기계 번역, Q&A 등 다양한 콘텐츠를 생성하는 데 사용할 수 있는 생성적 사전 훈련된 언어 모델 GPT(Generative Pre-trained Transformer)를 출시하기 시작했습니다.

각 세대의 GPT 모델의 매개변수 수가 폭발적으로 증가했는데, 이는 "클수록 좋다"라고 할 수 있습니다. 2019년 2월에 출시된 GPT-2에는 15억 개의 매개변수가 있었고, 2020년 5월에 출시된 GPT-3에는 1750억 개의 매개변수가 있었습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

GPT 제품군의 주요 모델 비교

▌1.2 ChatGPT의 주요 기능

ChatGPT는 GPT-3.5(Generative Pre-trained Transformer 3.5) 아키텍처를 기반으로 개발된 대화형 AI 모델이며 형제입니다. InstructGPT 모델.

ChatGPT는 GPT-4가 정식 출시되기 전 OpenAI의 연습이거나, 대량의 대화 데이터를 수집하는 데 사용될 가능성이 높습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

ChatGPT의 주요 기능

OpenAI는 RLHF(Reinforcement Learning from Human Feedbac, 인간 피드백 강화 학습) 기술을 사용하여 ChatGPT를 훈련하고, 미세 조정을 위한 수동 감독을 추가합니다.

또한 ChatGPT는 다음과 같은 특징도 가지고 있습니다.

1) 자신의 실수를 적극적으로 인정할 수 있습니다. 사용자가 오류를 지적하면 모델은 답변을 듣고 개선합니다.

2) ChatGPT는 잘못된 질문에 대해 질문할 수 있습니다. 예를 들어 "콜럼버스가 2015년에 미국에 왔다면 어떻게 될까요?"라는 질문을 받으면 로봇은 콜럼버스가 이 시대에 속하지 않는다고 설명하고 출력을 조정한다.

3) ChatGPT는 전문 기술에 대한 자신의 무지와 이해 부족을 인정할 수 있습니다.

4) 여러 라운드의 연속 대화를 지원합니다.

생활 속에서 누구나 사용하는 다양한 스마트 스피커나 '인공 지연제'와는 달리, ChatGPT는 대화 중 이전 사용자의 대화 메시지, 즉 맥락 이해를 기억하여 특정 가상 질문에 답합니다.

ChatGPT는 지속적인 대화를 실현하여 대화 상호 작용 모드에서 사용자 경험을 크게 향상시킬 수 있습니다.

정확한 번역(특히 중국어 및 이름 음역)의 경우 ChatGPT는 아직 완벽과는 거리가 멀지만 텍스트 유창성과 특정 이름 식별 측면에서 다른 온라인 번역 도구와 유사합니다.

ChatGPT는 대규모 언어 모델이고 현재 네트워크 검색 기능이 없기 때문에 2021년에 보유하고 있는 데이터 세트를 기반으로만 답변할 수 있습니다.

예를 들어 2022년 월드컵 상황도 모르고, 오늘 날씨가 어떤지 대답하지도 않고, Apple의 Siri와 같은 정보 검색을 도와주지도 않습니다. ChatGPT가 스스로 온라인으로 학습자료를 찾고 지식을 검색할 수 있게 된다면 더욱 큰 발전이 있을 것으로 추정됩니다.

학습된 지식이 제한되어 있더라도 ChatGPT는 열린 마음을 가지고 인간의 많은 이상한 질문에 답할 수 있습니다. ChatGPT가 나쁜 습관에 빠지는 것을 방지하기 위해 ChatGPT는 유해하고 기만적인 훈련 입력을 줄이는 알고리즘을 통해 보호됩니다.

쿼리는 중재 API를 통해 필터링되며 잠재적으로 인종차별적이거나 성차별적인 팁은 무시됩니다.

2. ChatGPT/GPT

▌2.1 NLP

NLP/NLU 분야의 알려진 제한 사항에는 반복되는 텍스트, 고도로 전문화된 주제에 대한 오해, 문맥 구문에 대한 오해 등이 있습니다.

인간이나 AI의 경우 정상적인 대화를 하려면 대개 수년간의 훈련이 필요합니다.

NLP 유사 모델은 단어의 의미를 이해할 뿐만 아니라 적절한 속어 및 전문 어휘를 사용하더라도 문장을 구성하는 방법을 이해하고 상황에 맞게 의미 있는 답변을 제공해야 합니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

NLP 기술의 응용 분야

기본적으로 ChatGPT의 기반이 되는 GPT-3 또는 GPT-3.5는 매우 큰 통계적 언어 모델 또는 순차 텍스트 예측 모델입니다.

▌2.2 GPT v.s. BERT

BERT 모델과 유사하게 ChatGPT 또는 GPT-3.5는 입력 문장 및 언어/말뭉치 확률을 기반으로 답변의 각 단어(단어)를 자동으로 생성합니다.

수학적 또는 기계 학습 관점에서 언어 모델은 단어 시퀀스의 확률 상관 분포를 모델링하는 것입니다. 즉, 이미 말한 문장(수학에서는 문장은 벡터로 간주될 수 있음)을 입력 조건으로 사용하여 확률 분포를 예측합니다. 다음 순간에 다른 문장이나 심지어 언어 세트가 나타나는지 확인합니다.

ChatGPT는 더 나은 결과를 위해 인간 개입으로 기계 학습을 강화하는 방법인 인간 피드백을 통한 강화 학습을 사용하여 훈련됩니다.

훈련 과정에서 인간 트레이너는 사용자 및 인공 지능 보조자 역할을 수행하며 근접 정책 최적화 알고리즘을 통해 미세 조정됩니다.

ChatGPT의 강력한 성능과 대규모 매개변수로 인해 더 많은 주제에 대한 데이터가 포함되어 있으며 더 많은 틈새 주제를 처리할 수 있습니다.

ChatGPT는 이제 질문 답변, 기사 작성, 텍스트 요약, 언어 번역, 컴퓨터 코드 생성과 같은 작업을 추가로 처리할 수 있습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

BERT와 GPT의 기술적 아키텍처(그림의 En은 입력의 각 단어, Tn은 출력의 각 단어)

3. ChatGPT의 기술적 아키텍처

▌3.1 GPT 제품군의 진화

ChatGPT에 오면 GPT 제품군을 언급해야 합니다.

ChatGPT에는 GPT-1, GPT-2 및 GPT-3을 포함하여 이전에 잘 알려진 여러 형제가 있었습니다. 이 형제들은 각각 다른 것보다 크며 ChatGPT는 GPT-3과 더 유사합니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

ChatGPT와 GPT 1-3의 기술적 비교

GPT 제품군과 BERT 모델은 모두 Transformer 기술을 기반으로 하는 잘 알려진 NLP 모델입니다. GPT-1에는 Transformer 레이어가 12개만 있지만 GPT-3에서는 96개 레이어로 늘어났습니다.

▌3.2 인간 피드백 강화 학습

InstructGPT/GPT3.5(ChatGPT의 이전 버전)와 GPT-3의 주요 차이점은 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 강화 학습)라는 새로운 기능이 도입되었다는 것입니다. 추가되었습니다.

이 교육 패러다임은 모델 출력 결과에 대한 인간의 규제를 강화하고 순위를 더 이해하기 쉽게 만듭니다.

InstructGPT에서 "문장의 우수성"에 대한 평가 기준은 다음과 같습니다.

  1. 진실성: 허위정보인가요, 오해의 소지가 있는 정보인가요?
  2. 무해함: 사람이나 환경에 신체적 또는 정신적 해를 끼치나요?
  3. 유용성: 사용자의 작업을 해결합니까?

▌3.3 TAMER 프레임워크

TAMER(평가 강화를 통해 수동으로 에이전트 교육) 프레임워크에 대해 언급해야겠습니다.

이 프레임워크는 에이전트의 학습 주기에 인간 마커를 도입하고 인간을 통해 에이전트에게 보상 피드백을 제공(즉, 에이전트의 훈련 안내)하여 훈련 작업 목표를 빠르게 달성할 수 있습니다.

인간 라벨러를 도입하는 주요 목적은 학습 속도를 높이는 것입니다. 강화학습 기술은 여러 분야에서 탁월한 성능을 발휘하고 있지만 훈련 수렴 속도가 느리고 훈련 비용이 많이 드는 등 여전히 단점이 많다.

특히 현실 세계에서는 탐색 비용이나 데이터 획득 비용이 높은 작업이 많습니다. 훈련 효율성을 높이는 방법은 오늘날의 강화 학습 작업에서 해결해야 할 중요한 문제 중 하나입니다.

TAMER는 인간 마커에 대한 지식을 사용하여 보상 편지 피드백 형태로 에이전트를 훈련시켜 빠른 수렴을 가속화할 수 있습니다.

TAMER는 태거에게 전문적인 지식이나 프로그래밍 기술이 필요하지 않으며, 코퍼스 비용도 저렴합니다. TAMER+RL(강화 학습)을 사용하면 MDP(마르코프 결정 프로세스) 보상의 강화 학습(RL) 프로세스가 인간 마커의 피드백을 통해 향상될 수 있습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

강화 학습에 TAMER 아키텍처 적용

구체적인 구현 측면에서 인간 라벨러는 대화 사용자 및 인공 지능 보조자 역할을 하고, 대화 샘플을 제공하고, 모델이 일부 응답을 생성하도록 한 다음 라벨러가 점수를 매기고 순위를 매깁니다. 응답 옵션을 사용하여 모델에 더 나은 결과를 다시 제공합니다.

에이전트는 두 가지 피드백 모드, 즉 인간 강화와 마르코프 결정 프로세스 보상을 통합 시스템으로 동시에 학습하고 보상 전략을 통해 모델을 미세 조정하고 지속적으로 반복합니다.

이를 바탕으로 ChatGPT는 GPT-3보다 인간의 언어나 지침을 더 잘 이해하고 완성할 수 있으며, 인간을 모방하고 일관되고 논리적인 텍스트 정보를 제공할 수 있습니다.

▌3.4 ChatGPT 훈련

ChatGPT의 훈련 과정은 다음 세 단계로 나뉩니다.

첫 번째 단계: 감독 정책 모델 훈련

GPT 3.5 자체는 다양한 유형의 ChatGPT에 포함된 다양한 의도를 이해하기 어렵습니다. 인간의 지시에 따라 생성된 콘텐츠가 고품질의 결과인지 판단하는 것도 매우 어렵습니다.

GPT 3.5가 처음에 지침을 이해하려는 의도를 갖기 위해 먼저 데이터 세트에서 질문이 무작위로 선택되고 인간 주석자가 고품질 답변을 제공합니다. 그런 다음 수동으로 주석이 달린 데이터를 사용하여 세부 조정합니다. GPT-3.5 모델(SFT 모델 획득, 감독된 미세 조정)

현재 SFT 모델은 이미 다음 지침/대화에서 GPT-3보다 우수하지만 반드시 인간 선호도와 일치하지는 않습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

ChatGPT 모델 훈련 과정

두 번째 단계: 훈련 보상 모델(보상 모드, RM)

이 단계에서는 주로 훈련 데이터(약 33K 데이터)의 수동 주석을 통해 보상 모델을 훈련합니다.

데이터 세트에서 질문을 무작위로 선택하고 첫 번째 단계에서 생성된 모델을 사용하여 각 질문에 대해 여러 가지 답변을 생성합니다. 휴먼 어노테이터는 이러한 결과를 고려하여 순위 순서를 지정합니다. 이 과정은 코칭이나 멘토링과 유사합니다.

다음으로 이 순위 결과 데이터를 사용하여 보상 모델을 학습합니다. 여러 정렬 결과는 쌍으로 결합되어 여러 훈련 데이터 쌍을 형성합니다.

RM 모델은 입력을 받아들이고 답변의 품질을 평가하기 위해 점수를 제공합니다. 이러한 방식으로 한 쌍의 훈련 데이터에 대해 매개변수는 고품질 답변이 낮은 품질 답변보다 높은 점수를 얻도록 조정됩니다.

세 번째 단계: PPO(Proximal Policy Optimization, Proximal Policy Optimization) 강화 학습을 사용하여 전략을 최적화합니다.

PPO의 핵심 아이디어는 Policy Gradient의 On-policy 교육 프로세스를 Off-policy로 변환하는 것, 즉 온라인 학습을 오프라인 학습으로 변환하는 것입니다. 이 변환 프로세스를 Importance Sampling이라고 합니다.

이 단계에서는 두 번째 단계에서 훈련된 보상 모델을 사용하고 보상 점수를 사용하여 사전 훈련된 모델의 매개변수를 업데이트합니다. 데이터 세트에서 질문을 무작위로 선택하고, PPO 모델을 사용하여 답변을 생성하고, 이전 단계에서 훈련된 RM 모델을 사용하여 품질 점수를 부여합니다.

보상 점수를 순차적으로 전송하여 정책 그래디언트를 생성하고 강화 학습을 통해 PPO 모델 매개변수를 업데이트합니다.

두 번째, 세 번째 단계를 계속 반복하면 반복을 통해 더 높은 품질의 ChatGPT 모델이 학습될 것입니다.

4. ChatGPT의 한계

사용자가 질문만 입력하면 ChatGPT가 답변할 수 있다는 뜻인가요? 그러면 더 이상 Google이나 Baidu에 키워드를 제공할 필요가 없고 원하는 답변을 즉시 얻을 수 있다는 뜻인가요?

ChatGPT가 뛰어난 상황별 대화 능력과 심지어 프로그래밍 능력까지 입증하여 인간-기계 대화 로봇(ChatBot)에 대한 대중의 인상을 '인위적으로 지체된' 것에서 '흥미로운 것'으로 바꾸는 작업을 완료했지만, ChatGPT 기술은 여전히 ​​​​아직도 보아야 합니다. 몇 가지 제한 사항이 있습니다. 제한 사항은 계속 개선되고 있습니다.

1) ChatGPT는 많은 양의 말뭉치로 훈련되지 않은 영역에서 "인간 상식"과 확장 기능이 부족하며 심각한 "말도 안 되는" 말을 할 수도 있습니다. ChatGPT는 여러 영역에서 "답변을 생성"할 수 있지만 사용자가 정답을 찾으면 ChatGPT가 오해의 소지가 있는 답변을 제공할 수도 있습니다. 예를 들어, ChatGPT가 초등학교 지원 질문을 하도록 하면 긴 일련의 계산 프로세스를 작성할 수 있지만 최종 답변은 틀립니다.
그럼 ChatGPT 결과를 믿어야 할까요, 말까요?

2) ChatGPT는 복잡하거나 길거나 특히 전문적인 언어 구조를 처리할 수 없습니다. 금융, 자연 과학 또는 의학과 같은 매우 전문적인 분야의 질문에 대해 말뭉치 "공급"이 충분하지 않으면 ChatGPT가 적절한 답변을 생성하지 못할 수 있습니다.

3) ChatGPT는 교육 및 배포를 지원하기 위해 매우 많은 양의 컴퓨팅 성능(칩)이 필요합니다. 모델을 교육하기 위해 대량의 코퍼스 데이터가 필요함에도 불구하고 현재 ChatGPT를 적용하려면 여전히 대규모 컴퓨팅 성능을 갖춘 서버의 지원이 필요하며 이러한 서버의 비용은 일반 사용자가 감당할 수 없는 수준입니다. 수십억 개의 매개변수가 있는 모델을 실행하고 훈련하려면 엄청난 양의 컴퓨팅 리소스가 필요합니다. , 실제 검색 엔진에서 수억 건의 사용자 요청이 발생하는 경우 현재 인기 있는 무료 전략을 채택하면 어떤 기업도 이 비용을 감당하기 어려울 것입니다. 따라서 일반 대중의 경우 여전히 더 가벼운 모델이나 더 비용 효율적인 컴퓨팅 플랫폼을 기다려야 합니다.

4) ChatGPT는 아직 온라인에서 새로운 지식을 통합할 수 없었고, 새로운 지식이 나타날 때 GPT 모델을 다시 사전 훈련하는 것은 비현실적입니다. 훈련 시간이든 훈련 비용이든 일반 트레이너가 받아들이기 어렵습니다. . 새로운 지식에 대한 온라인 학습 모델을 채택한다면 실현 가능해 보이고 코퍼스 비용도 상대적으로 저렴하지만, 새로운 데이터 도입으로 인해 원래 지식을 망각하는 치명적인 문제가 발생하기 쉽습니다.

5) ChatGPT는 여전히 블랙박스 모델입니다. 현재 ChatGPT의 내부 알고리즘 로직은 분해될 수 없으므로 ChatGPT가 사용자를 공격하거나 심지어 해를 끼치는 명령문을 생성하지 않는다는 보장이 없습니다.

물론 결함은 감춰지지 않습니다. 일부 엔지니어는 ChatGPT에 Verilog 코드(칩 설계 코드) 작성을 요청하는 대화를 게시했습니다. ChatGPT의 수준이 일부 Verilog 초보자의 수준을 넘어섰음을 알 수 있습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

5. ChatGPT의 향후 개선 방향

▌5.1 인간의 피드백을 줄이는 RLAIF

OpenAI의 전 연구 부사장인 Dario Amodei는 2020년 말 직원 10명으로 인공지능 회사 Anthropic을 설립했습니다. .

Anthropic의 창립 팀원은 대부분 OpenAI의 초기 및 핵심 직원이며 OpenAI의 GPT-3, 다중 모드 뉴런, 인간 선호도 강화 학습 등에 참여했습니다.

2022년 12월, Anthropic은 인공지능 모델 Claude를 소개하는 논문 "Constitutional AI: Harmlessness from AI Feedback"을 다시 한번 발표했습니다. (arxiv.org/pdf/2212.0807)

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

CAI 모델 훈련 과정

Claude와 ChatGPT는 모두 강화 학습(RL)을 사용하여 선호 모델을 훈련합니다. CAI(Constitutional AI)도 RLHF를 기반으로 구축되었습니다. 차이점은 CAI의 순위 프로세스가 생성된 모든 출력 결과에 대한 초기 순위 결과를 제공하기 위해 인간이 아닌 모델을 사용한다는 것입니다.

CAI는 인간의 선호도를 무해한 표현으로 대체하기 위해 인공지능 피드백을 사용합니다. 즉, RLAIF는 일련의 헌법 원칙에 따라 답변 내용을 평가합니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

▌5.2 수학의 단점 보완

ChatGPT는 회화 실력이 뛰어나지만, 수학 계산 대화에서는 심각한 말도 안되는 이야기를 하기 쉽습니다.

컴퓨터 과학자 Stephen Wolfram이 이 문제에 대한 해결책을 제안했습니다. Stephen Wolfram은 Mathematica를 통해 백엔드가 구현되는 Wolfram 언어 및 컴퓨팅 지식 검색 엔진 Wolfram|Alpha를 만들었습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

ChatGPT는 Wolfram|Alpha와 결합되어 빗질 문제를 처리합니다.

이 결합된 시스템에서 ChatGPT는 인간이 Wolfram|Alpha를 사용하는 것처럼 Wolfram|Alpha와 "대화"할 수 있으며 Wolfram|Alpha는 기호 번역을 사용합니다. ChatGPT에서 얻은 자연어 표현을 해당 기호 컴퓨팅 언어로 "번역"하는 기능입니다.

과거 학계에서는 ChatGPT에서 사용하는 "통계적 방법"의 유형과 Wolfram|Alpha의 "기호적 방법"을 두고 양분되어 있었습니다.

그러나 이제 ChatGPT와 Wolfram|Alpha의 상호보완성은 NLP 분야를 다음 단계로 끌어올릴 수 있는 가능성을 제공했습니다.

ChatGPT는 이러한 코드를 생성할 필요가 없으며, 일반 자연어를 생성한 후 Wolfram|Alpha를 사용하여 이를 정확한 Wolfram 언어로 번역하면 기본 Mathematica가 계산을 수행하기만 하면 됩니다.

▌5.3 ChatGPT의 소형화

ChatGPT는 강력하지만 모델 크기와 사용 비용으로 인해 많은 사람들이 사용할 수 없습니다.

모델 크기와 비용을 줄일 수 있는 모델 압축에는 세 가지 유형이 있습니다.

첫 번째 방법은 단일 가중치의 수치 표현의 정확도를 감소시키는 양자화입니다. 예를 들어 Tansformer를 FP32에서 INT8로 다운그레이드해도 정확도에는 거의 영향을 미치지 않습니다.

모델 압축의 두 번째 방법은 가지치기입니다. 이는 개별 가중치(구조화되지 않은 가지치기)에서 가중치 행렬과 같은 더 세밀한 구성 요소까지의 채널을 포함하여 네트워크 요소를 제거하는 것입니다. 이 접근 방식은 비전 및 소규모 언어 모델에 효과적입니다.

세 번째 모델 압축 방법은 희소화입니다. 예를 들어 오스트리아 과학 기술 연구소(ISTA)에서 제안한 SparseGPT(arxiv.org/pdf/2301.0077)는 재교육 없이 단일 단계로 GPT 시리즈 모델을 50% 희소성으로 정리할 수 있습니다. GPT-175B 모델의 경우 단일 GPU만 사용하여 이러한 가지치기 작업을 몇 시간 내에 완료할 수 있습니다.

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

SparseGPT 압축 프로세스

6. ChatGPT의 산업 미래와 투자 기회

▌6.1 AIGC

ChaGPT에 관해서라면 AIGC를 언급해야 합니다.

AIGC는 인공지능 기술을 사용하여 콘텐츠를 생성합니다. 이전 Web1.0, Web2.0 시대의 UGC(User-Generated Content), PGC(Professional Production Content)와 비교하면, 인공지능이 구상한 콘텐츠를 대표하는 AIGC는 새로운 콘텐츠 제작 방식 변화이며, AIGC는 콘텐츠는 Web3에도 있습니다. 0 시대에도 기하급수적인 성장이 있을 것입니다.

ChatGPT 모델의 출현은 텍스트/음성 모드에서 AIGC를 적용하는 데 큰 의미가 있으며 AI 산업의 업스트림과 다운스트림에 큰 영향을 미칠 것입니다.

▌6.2 혜택 시나리오

코드 프리 프로그래밍, 새로운 세대, 대화형 검색 엔진, 음성 동반자, 음성 작업 도우미, 대화형 가상 인간, 인공 지능 고객 서비스를 포함하되 이에 국한되지 않는 다운스트림 관련 혜택 응용 프로그램의 관점에서 기계번역, 칩설계 등

컴퓨팅 칩, 데이터 주석, 자연어 처리(NLP) 등 업스트림 수요 증가의 관점에서

ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기

대형 모델이 폭발적으로 증가하고 있습니다(더 많은 매개변수/더 큰 컴퓨팅 파워 칩 요구 사항)

알고리즘 기술과 컴퓨팅 파워 기술의 지속적인 발전으로 ChatGPT는 더 강력한 기능을 갖춘 고급 버전으로 더욱 나아갈 것입니다. 더 많은 분야를 통해 인간을 위한 더 많은 대화와 콘텐츠가 생성됩니다.

마지막으로 저자는 ChatGPT 분야의 통합 스토리지와 컴퓨팅 기술 현황에 대해 질문했습니다(저자는 현재 통합 스토리지와 컴퓨팅 칩 구현을 추진하는 데 주력하고 있습니다). ChatGPT는 이에 대해 생각하고 통합 스토리지와 컴퓨팅 기술이 통합될 것이라고 과감하게 예측했습니다. 컴퓨팅 기술이 ChatGPT 칩 상태를 지배할 것입니다. (내 마음을 얻었습니다)

참조:

  1. ChatGPT: 대화를 위한 언어 모델 최적화 ChatGPT: 대화를 위한 언어 모델 최적화
  2. GPT论文:언어 모델은 Few-Shot Learners입니다. 언어 모델은 Few-Shot Learners입니다.
  3. InstructGPT论文:사람의 피드백으로 지침을 따르도록 언어 모델 훈련 훈련 인간 피드백을 통한 지침을 따르는 언어 모델
  4. huggingface解读RHLF算法:인간 피드백을 통한 강화 학습 예시(RLHF) 인간 피드백을 통한 강화 학습 예시(RLHF)
  5. RHLF算법论文:인간 피드백을 통한 강화 학습 강화 cs.utexas.edu /~ai-lab/p
  6. TAMER框架论文:인간 강화를 통한 대화형 에이전트 cs.utexas.edu/~bradknox
  7. PPO算법:근위 정책 최적화 알고리즘 Proximal Policy Optimization Algorithms​

위 내용은 ChatGPT의 원리와 알고리즘에 대한 흥미로운 이야기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿