> 기술 주변기기 > 일체 포함 > ChatGPT 중국어 버전은 누가 만들 수 있나요? 어떻게 하나요?

ChatGPT 중국어 버전은 누가 만들 수 있나요? 어떻게 하나요?

王林
풀어 주다: 2023-04-11 19:40:09
앞으로
1062명이 탐색했습니다.

2022년 12월, ChatGPT가 탄생했습니다. OpenAI는 핵폭탄 수준의 결과로 과학 연구 및 엔지니어링 응용의 패러다임을 바꾸었습니다. 중국에서는 ChatGPT가 광범위한 관심과 심오한 토론을 받았습니다. 지난 한 달 동안 저는 베이징에서 상하이, 항저우, 선전에 이르기까지 주요 대학, 연구소, 대규모 공장, 스타트업 기업, 벤처 캐피탈을 방문하여 모든 주요 기업들과 이야기를 나눴습니다. 규모의 게임은 이미 중국에서 시작됐다. 국내 기술과 생태계, 그리고 세계 최고 수준의 격차가 큰 상황에서 폭풍의 중심에 있는 플레이어들은 이를 어떻게 달성할 수 있을까? 누가 이것을 할 수 있나요?

Qin은 사슴을 잃었고, 전 세계가 사슴을 쫓아냈습니다. ———— "회음후작기·회음후전"

목차

ChatGPT 중국어 버전은 누가 만들 수 있나요? 어떻게 하나요?

1. 세 가지 답변

스타트업에 연락할 때마다 같은 질문: "ChatGPT는 어디에 있나요? 무엇을 하고 싶으신가요?" 아마도 세 가지 다른 답변을 받았을 것입니다. 첫 번째 대답은 분명합니다. 중국의 ChatGPT를 구축하는 것입니다.

1.1 Make China’s ChatGPT

거기에 있기 때문에 재현해서 현지화하고 싶습니다. 이것이 매우 고전적인 제품 중심의 중국 인터넷 사고입니다. 이 아이디어는 또한 지난 20년 동안 중국 인터넷의 일반적인 비즈니스 모델이기도 합니다. 먼저 실리콘 밸리가 무언가를 만든 다음 우리가 그것을 복사합니다.

그런데 여기서 문제는 우선 ChatGPT가 택시 호출 소프트웨어와 같지 않고 재생 난이도가 전혀 다르다는 것입니다. 인간의 관점에서 볼 때, GPT의 탄생은 2015년부터 세계 최고의 과학자와 엔지니어들의 지속적인 연구의 결과입니다. OpenAI의 수석 과학자 Ilya Sutskever[1], 는 AGI가 달성될 수 있다고 깊이 믿습니다. 튜링상 수상자 Geoffery Hinton의 제자로서 2007년부터 딥러닝을 연구해 왔습니다. 그는 370,000번의 인용을 가지고 있으며, 그가 출판한 기사는 지난 10년 동안 딥 러닝의 모든 핵심 노드에 정확하게 도달했습니다. 이렇게 강력한 팀이 있음에도 불구하고 GPT 2에서 GPT 3.5까지 가는 데 4년이 걸렸습니다. 과학과 공학의 어려움을 짐작할 수 있습니다.

동시에 1세대 ChatGPT는 GPT 3.5의 기본 모델을 기반으로 OpenAI에서 만든 데모입니다. 2주 동안 대화 상자를 미세 조정한 후 폐기되었습니다 . 여기서 진정한 강점은 ChatGPT 제품이 아니라 기본 GPT 3.5 기본 모델입니다. 이 모델은 여전히 ​​진화하고 있습니다. GPT 3.5 시리즈는 2022년에 세 가지 주요 버전으로 업데이트되었습니다. 출시 후 몇 달이 지났습니다. 각각의 작은 버전은 단일 차원에서 이전 버전에 비해 눈에 띄게 개선되었습니다. 모든 OpenAI 모델은 지속적으로 진화하고 시간이 지남에 따라 더욱 강력해지고 있습니다. 현재 제품 ChatGPT에만 집중한다면

은 검을 찾으려는 것과 같습니다

. ChatGPT가 등장했을 때, 당시 OpenAI의 근간인 비슷한 것을 만들기 위해 1~2년을 노력해도 기본 모델의 진화를 볼 수 없다면 기존 음성 비서에 차원 축소 타격을 입혔습니다. 모델도 계속해서 강해지고 있습니다. 더욱 강력한 새 기본 모델로 더욱 강력한 제품을 계속해서 제품화하고 미세 조정하면 다시 차원 축소의 타격을 받게 될까요? 배를 깎고 검을 구하는 접근 방식은 통하지 않습니다.

1.2 중국의 OpenAI가 되자

두 번째 대답은 중국의 OpenAI가 되는 것입니다. 이 답변을 한 플레이어는 고전적인 중국 인터넷 제품 사고에서 뛰어났습니다. 그들은 단일 제품을 보았을 뿐만 아니라, 첨단 인재의 밀도와 선진적인 조직 구조에서 비롯되는 이 제품의 기본 모델이 지속적으로 진화하는 강력한 원동력을 보았습니다.

  • 최첨단 인재의 밀도: 한 사람이 자원을 모아 팀을 이끌고, 계층적으로 아래 사람들에게 작업을 패키지화하여 할당하는 것이 아니라, 상위 수준의 사람들이 모여 팀을 이끈다. 과학과 공학을 결합하여 함께 일합니다.
  • 고급 조직 구조: 언어 팀과 정렬 팀이 서로 협력하여 반복하고, 스케일링 팀과 데이터 팀이 인프라를 제공하는 데 도움을 줍니다. 각 팀은 매우 작지만 명확한 목표를 가지고 있습니다. 명확한 경로와 높은 집중력 자원, AGI를 향해 나아가는 중
그래서 이것을 하려면 제품뿐만 아니라 그 뒤에 있는 인재 팀과 조직 구조도 희소성에 따른 순위를 확인해야 합니다.

사람>> 카드 >> 돈 .

그러나 여기서 문제는 서로 다른 토양이 서로 다른 정도로 혁신을 장려한다는 것입니다. OpenAI가 2015년 처음 설립되었을 때 투자자들은 당시 아무런 이익도 얻지 못했음에도 불구하고 AGI를 믿었습니다. 이제 GPT가 개발되었기 때문에 국내 투자자들도 AGI를 믿었지만 그들의 믿음은 다를 수 있습니다.

AGI가 돈을 벌 수 있다고 믿습니까, 아니면 AGI가 인류 발전을 촉진할 수 있다고 믿습니까?

게다가 OpenAI가 여기서 태어나 내일 등장하더라도 마이크로소프트와 맺은 계약이 국내 클라우드 컴퓨팅 제조사들과 성사될 수 있을까요? 대규모 모델의 교육 및 추론에는 막대한 비용이 필요하며 지원을 위해 클라우드 컴퓨팅 엔진이 필요합니다. Microsoft는 Azure 전체가 OpenAI

[4]를 도울 수 있도록 모든 노력을 기울일 수 있습니다. 이것을 중국으로 바꾸면 Alibaba Cloud가 스타트업 기업을 도울 수 있을까요? 조직 구조는 매우 중요합니다. 최첨단 인재와 고급 조직 구조만이 지능의 지속적인 반복과 진화를 촉진할 수 있지만, 그것이 위치한 토양에 적응하고 번영할 방법도 찾아야 합니다.

1.3 지능의 한계 탐색

세 번째 대답은

지능의 한계 탐색

입니다. 이것이 내가 들은 최고의 대답이다. 모든 면에서 검을 추구하는 고전적인 인터넷 제품 사고를 훨씬 뛰어넘어 조직 구조와 최첨단 인재 밀도의 중요성을 보고, 더 중요한 것은 미래를 보고, 모델 진화와 제품 반복을 보고 생각한다는 것입니다. 가장 심오하고 심오한 것을 어떻게 통합할 것인가에 대해 가장 혁신적인 접근 방식으로 어려운 문제를 해결합니다. 이것은 대형 모델을 생각하는 극단적인 생각을 포함합니다.

2. 극단적인 사고

현재 ChatGPT/GPT-3.5를 관찰해 보면 분명히 중간 상태이며 다음을 포함하여 여전히 크게 향상될 수 있고 즉시 향상될 수 있는 점이 많습니다.
  • 더 긴 입력 상자: 처음에 GPT 3.5의 컨텍스트는 최대 8,000개 토큰이었지만 이제 ChatGPT 컨텍스트 모델링의 길이는 10,000개를 초과한 것 같습니다. 그리고 이 길이는 분명히 효율적인 주의[5] 및 재귀적 인코딩[6]을 통합한 후에는 10만 또는 심지어 100만 길이까지 확장될 수 있습니다
  • . 더 큰 모델, 더 큰 데이터: 모델 크기가 아직 한계에 도달하지 않았으며 MoE는 계속해서 모델을 T[7] 순서로 확장할 수 있습니다. 한계에 도달했고 매일 인간이 피드백하는 데이터 모두 증가
  • Multi-modal: 다중 모드 데이터(오디오, 사진), 특히 비디오 데이터를 추가한 후 전체 크기와 훈련 데이터는 두 자릿수로 증가할 수 있습니다. 그러면 이 알려진 능력은 확장 법칙에 따라 선형적으로 증가할 수 있으며, 새로운 신흥 능력이 계속해서 나타날 수 있습니다. 예를 들어, 모델은 다양한 기하학적 모양과 대수학 문제의 그림을 본 후 분석 기하학을 수행하는 방법을 자동으로 학습할 수 있습니다.
  • 전문화: 기존 모델은 대략 인문학 대학원 수준과 동일하지만 과학 분야에서는 고등학교 또는 1학년 또는 2학년 수준과 동일합니다. 모델 스킬 포인트가 한 방향에서 다른 방향으로 이동합니다. 즉, 크기 조정 없이도 다른 능력을 희생하여 모델을 목표 방향으로 밀어 넣을 수 있습니다. 예를 들어 모델의 과학 능력은 희생되고, 인문학 능력은 대학원생에서 전문 교수 수준으로 밀려난다.

위의 네 가지 점은 이 단계에서만 볼 수 있습니다. 즉시 강화할 수는 있지만 아직 강화된 점은 없습니다. 시간이 지나고 모델이 발전하면 더 많은 차원이 될 것입니다. 규모에 따라 추가로 반영됩니다. 즉, 채울 수 있는 차원을 모두 채웠을 때 모델이 어떤 모습일지 극단적인 사고를 갖고 생각해야 한다는 뜻이다.

2.1은 모든 것을 채울 수 있습니다.

모델의 입력 상자는 계속 길어질 수 있고, 모델의 크기는 계속 증가할 수 있으며, 모델의 데이터는 계속 증가할 수 있습니다. 다중 모달 데이터 모델의 전문화 정도는 계속해서 높아질 수 있으며, 이 모든 차원은 계속해서 위로 끌어올려질 수 있습니다. 모델은 아직 한계에 도달하지 않았습니다. 한계는 과정입니다. 이 과정에서 모델의 능력은 어떻게 발전할까요?

  • 로그 선형 곡선: 특정 작업의 미세 조정과 같은 일부 기능의 성장은 로그 선형 곡선[8]을 따릅니다. 미세 조정 데이터가 기하급수적으로 증가함에 따라 모델에 해당하는 미세 조정 작업의 기능도 선형적으로 증가합니다. 기능의 이 부분은 예상대로 더 강해질 것입니다
  • 위상 변화 곡선: 분석 기하학을 수행하는 위 모델의 예와 같은 일부 기능은 스케일링[9]을 통해 계속해서 나타날 것입니다. 채울 수 있는 차원이 계속해서 채워지면서, 새롭고 예측할 수 없는 창발 능력이 등장하게 됩니다.
  • 다항식 곡선? 모델이 어느 정도 인간과 일치할 만큼 강력해지면 아마도 일부 기능의 선형적 성장과 필요한 데이터가 기하급수적 성장의 봉쇄를 뚫고 다항식의 순서로 축소될 것입니다. 즉, 모델이 어느 정도 강력해지면 지수 데이터가 필요하지 않고 다항식 수준의 데이터만 있어도 일반화를 완료할 수 있습니다. 이는 인간의 전문 학습에서 관찰할 수 있습니다. 도메인 전문가가 아닌 사람은 도메인 지식을 배우기 위해 기하급수적인 양의 데이터가 필요합니다. 이미 도메인 전문가인 경우에는 아주 적은 양의 데이터만 필요합니다. 레벨 데이터는 그 자체로 새로운 영감과 지식을 쏟아냅니다.

그래서 극단적인 사고 하에서 채울 수 있는 모든 차원이 채워지면 모델은 점점 더 강해지고 더 많은 창발 능력을 갖게 될 것입니다.

2.2 중간 과정을 역전시키세요

한계 과정에 대해 명확하게 생각한 후 한계 상태에서 중간 과정을 되돌릴 수 있습니다. 예를 들어 입력 상자의 크기를 늘리고 싶다면

  • 모델의 입력 상자를 thousand에서 million으로 늘리려면 만 늘리면 됩니다. 그래픽 카드 수 이는 비디오 메모리를 최적화하여 달성할 수 있습니다.
  • 입력 상자를 10,000 크기에서 100,000 크기로 계속 늘리려면 다음이 필요할 수 있습니다. 선형적 관심 [10]
    방법은 이때 비디오 메모리를 추가하면 입력 상자의 길이에 따른 주의 계산량의 2차 증가를 지원할 수 없기 때문입니다.
  • 입력 상자를 십만에서 백만으로 계속 늘리려면 재귀 인코딩 [11] 방법과 증가 이 필요할 수 있습니다. 장기 기억 [12] 방법. 현재로서는 선형 주의가 비디오 메모리의 성장을 지원하지 못할 수 있기 때문입니다.

이렇게 하면 다양한 단계에서 스케일링에 필요한 기술이 무엇인지 추론할 수 있습니다. 위의 분석은 입력 상자의 길이에만 적용되는 것이 아니라 다른 요소의 크기 조정 과정에도 적용됩니다.

이렇게 하면 현재 기술부터 확장의 한계까지 명확한 중간 단계별 기술 로드맵을 얻을 수 있습니다.

2.3 모델 진화 프로세스에 따른 제품화

모델은 끊임없이 진화하지만 제품화는 최종 모델이 완성될 때까지 기다릴 필요가 없습니다. 모델의 대규모 버전이 반복될 때마다 제품화가 가능합니다. 제품화. OpenAI의 제품화 과정을 예로 들어보겠습니다.

  • 2020년 1세대 GPT 3 교육이 완료되고 OpenAI API가 오픈되었습니다[13]
  • 2021년 1세대 GPT 3 Codex 훈련이 완료되고 Github Copilot이 오픈되었습니다[14]
  • 2022년 GPT-3.5 훈련이 완료되면 대화 데이터를 ChatGPT로 미세 조정한 후 게시합니다

에서 볼 수 있습니다 각각의 중요한 버전은 중간 단계에서 모델의 성능이 향상되고 제품화 기회가 있을 것입니다.

더 중요한 것은 모델 진화 과정에 따라 제품화 단계에서 시장에 적응할 수 있다는 것입니다. 모델 진화 자체를 촉진하기 위해 OpenAI의 조직 구조를 배우되, 제품화는 현지 시장의 특성에 따라 이루어질 수 있습니다. 이러한 접근 방식을 통해 적응 문제를 피하면서 OpenAI의 고급 경험을 통해 배울 수 있습니다.

3. 인공지능이 인간을 크게 뛰어넘는 시점

지금까지 모델을 모델 진화의 관점에서 분석하고, 극단적인 사고를 통해 모델의 진화를 논의해야 할 필요성에 대해 논의했습니다. 이 단계에서 즉시 향상될 수 있는 점으로는 입력 상자의 길이, 더 큰 모델 및 데이터, 다중 모드 데이터, 모델의 전문화 정도 등이 있습니다. 이제 좀 더 장기적인 시각을 갖고 더 큰 시간과 공간에서 모델이 어떻게 한계까지 더 확장될 수 있는지 생각해 보겠습니다. 우리는 다음을 논의합니다:

  • Parallel Perception: 인간 연구자가 한 번에 4~5개의 논문을 순차적으로 읽는 것은 이미 한계이지만, 모델 입력 상자가 길어지면 매우 긴 시간 동안 100개의 논문을 병렬로 읽을 수 있습니다. 짧은 시간. 이는 외부 정보를 인식하는 모델의 능력이 인간의 능력을 훨씬 능가한다는 것을 의미합니다.
  • 기억 상속: 인간이 진화하는 동안 자손은 부모의 유전자만 물려받으며 기억은 물려받지 않습니다. 즉, 모델의 진화 과정에서 모든 번식이 다시 시작되어야 합니다. , 자손은 부모의 기억을 물려받을 수 있으며 이 상속의 정도는 제어 가능합니다. 우리는 자손이 기억의 100%, 50%, 20%를 상속하도록 설정하거나 기억을 지울 수 있습니다. 부모의 기술은 지속적으로 축적될 수 있습니다
  • 가속 시간: 인간이 서로 의사소통하는 속도는 인간이 말하는 물리적 속도에 의해 제한되며, 모델이 서로 의사소통하는 속도는 훨씬 더 클 수 있습니다. 인간보다 빠르다. 이는 모델이 서로 소통하여 문제를 해결할 수 있음을 의미한다. 시간이 지남에 따라 인간 데이터가 선형적으로 증가하는 문제는 인간의 진화 과정이 물리적 시간에 의해 제한되며, 모델의 진화는 몇 배 더 빠를 수 있다. 이는 인간의 물리적 시간보다 모형의 발전이 인간보다 훨씬 빠를 수 있음을 의미합니다
  • 무한한 생명: 사람의 삶은 유한하며 결국 백년이 지나면 먼지로 변합니다. 모델의 무게를 잃지 않기 때문에 계속 진화할 수 있다

이러한 관점에서 인공지능이 인간을 능가한다는 것은 상상할 수 없는 일이 아니다. 이는 다음 질문으로 이어집니다. 인간을 훨씬 능가하는 강력한 인공 지능을 어떻게 제어할 수 있을까요?

이 문제는 정렬 기술이 정말로 해결하고 싶은 것입니다.

4. 정렬

현 단계에서 모델의 능력은 AlphaGo가 바둑에서 최강 인간을 능가한다는 점을 제외하면 다른 AI는 최강 인간을 능가하지 못했습니다(그러나 ChatGPT는 인문학에서 최강 인간을 능가했을 수도 있습니다) 95 %이며 계속 성장하고 있습니다). 모델이 인간을 능가하지 못한 경우 Alignment의 임무는 모델이 인간의 가치와 기대에 부합하도록 만드는 것입니다. 그러나 모델이 인간을 능가하도록 계속 진화한 후에는 Alignment의 임무는 훨씬 더 뛰어난 지능형 에이전트를 제어하는 ​​방법을 찾는 것이 됩니다. 인간.

4.1 인간을 훨씬 뛰어넘는 지능형 에이전트를 제어하는 ​​방법으로서의 정렬

분명한 질문은 AI가 인간을 능가한 후에도 인간의 피드백을 통해 AI가 여전히 더 강해지고 더 제한될 수 있느냐는 것입니다. 지금은 통제 불능인가요?

모델이 인간보다 훨씬 우수하더라도 여전히 제어할 수 있습니다. 여기에는 운동선수와 코치의 관계가 있습니다. 금메달을 딴 선수들은 이미 자신이 속한 분야에서 가장 강한 인간입니다. , 그러나 이것이 코치가 그를 훈련할 수 없다는 것을 의미하지는 않습니다. 반대로 코치가 운동선수만큼 뛰어나지 않더라도 다양한 피드백 메커니즘을 통해 운동선수를 더욱 강하고 규율 있게 만들 수 있습니다.

마찬가지로 인간과 강력한 인공지능의 관계는 AI 개발 중후반에는 운동선수와 코치의 관계가 될 수도 있습니다. 이때 인간에게 필요한 능력은 목표를 달성하는 능력이 아니라, 좋은 목표를 세우고, 기계가 목표를 충분히 잘 달성했는지 측정하고 개선방안을 제시하는 것입니다.

이 방향에 대한 연구는 아직 매우 예비적입니다. 이 새로운 분야의 이름은 확장 가능한 감독[15]입니다.

4.2 정렬 및 조직 구조

지능, 인간과 AI가 일치해야 할 뿐만 아니라 인간과 인간도 고도로 일치해야 합니다. 조직 구조의 관점에서 정렬에는 다음이 포함됩니다.

  • 사전 훈련 팀과 지시 조정 팀 간의 정렬 - 정렬 팀 : 둘은 상호 반복적인 프로세스여야 합니다. 사전 훈련 팀은 기본 모델을 지속적으로 확장하고 정렬 팀은 기본 모델에 대한 명령 조정을 수행합니다. 사용 중 얻은 결과는 사전 훈련 팀의 방향을 역으로 안내합니다.
  • 사전 훈련/정렬 팀과 스케일링/데이터 팀 간의 정렬: 스케일링은 사전 훈련/정렬을 위한 인프라 준비를 담당하고, 데이터는 고품질 데이터 및 인간 피드백 데이터 준비를 담당합니다.
  • 스타트업과 VC의 정렬: AGI는 장기적인 투자가 필요한 어려운 일이며, 이를 위해서는 모든 측면의 사람들이 충분한 인내심과 높은 비전을 필요로 합니다. 핫머니를 태워 제품화를 촉진하고 시장을 선점하는 논리는 대형 모델 시대에는 더 이상 존재해서는 안 된다. 대형 모델 게임은 플레이어가 충분히 높은 비전과 구조를 가질 것을 요구합니다. 모델의 진화는 인내심을 갖고 열심히 일하는 사람들이 장기적으로 풍부한 보상을 얻을 수 있도록 할 것이며, 또한 단지 바라보기만 하는 사람들도 만들 것입니다. 단기적인 추격은 몇 번이고 배신을 당합니다.

5. 결론

2017년 처음 NLP 업계에 입문했을 때 Controlable Generation에 많은 노력을 기울였습니다. 당시 가장 소위 텍스트 스타일 이전은 문장의 감정 분류를 좋은 것으로 바꾸는 것이 완전한 이전으로 간주되었습니다. 2018년에는 문장 구조의 관점에서 모델이 문장 스타일을 수정하도록 하는 방법을 연구하는 데 많은 시간을 보냈습니다. 스타일 변환이 거의 불가능하다고 잘못 생각한 적이 있습니다. 이제 ChatGPT를 사용하면 스타일 변환이 매우 쉬워집니다. 한때 불가능해 보였던 작업, 극도로 어려웠던 작업을 이제는 대규모 언어 모델을 사용하여 매우 쉽게 수행할 수 있습니다. 2022년 내내 저는 GPT-3부터 GPT-3.5[11]까지 모든 버전 반복을 추적하고 약한 버전에서 강한 버전으로 단계별로 지속적인 진화를 내 눈으로 보았습니다. 이 진화 속도는 느려지는 것이 아니라 가속화되고 있습니다. 한때 공상과학처럼 보였던 일이 이제는 현실이 되었습니다. 미래가 어떻게 될지 누가 알겠어요?

기장을 분리하고, 벼의 모종이 자라고 있습니다. 속도는 느리고 소심하며 중심이 흔들리고 있다.

기장은 분리되고, 곡식의 이삭은 분리됩니다. 큰 보폭으로 앞으로 나아가는 중심은 마치 취한 것 같다.

———— "가경·밀리"

위 내용은 ChatGPT 중국어 버전은 누가 만들 수 있나요? 어떻게 하나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿