現在、生成 AI トラックが熱いです。 PitchBook の統計によると、生成 AI トラックは 2022 年に総額約 14 億米ドルの資金調達を受ける予定で、これは過去 5 年間の総額にほぼ達します。 OpenAI や Stability AI などのスター企業や、Jasper、Regie.AI、Replika などの新興企業はすべて資本の恩恵を受けています。
資金調達額と時期の関係図
2022 年 10 月、Stability AI は約 1 億米ドルの資金調達を受け、オープンソース モデル Stable をリリースしました。拡散は、ユーザーが入力したテキストの説明に基づいて画像を生成し、AI 絵画の分野を爆発させます。 2022 年 11 月 30 日、ChatGPT がパブリック ベータ版を発表してから 5 日後にオンラインになり、世界のユーザー数が 100 万人を超えました。サービス開始から 40 日足らずで、デイリーアクティブユーザー数は 1,000 万人を超えました。 2023 年 3 月 15 日の早朝、OpenAI は最も強力な GPT シリーズ モデル GPT-4 をリリースしました。これは、画像とテキストの入力を受け入れ、テキスト出力を生成できる大規模なマルチモーダル モデルを提供します。これは破壊的な影響を及ぼします。業界では。 2023年3月17日、MicrosoftはMicrosoft 365 Copilotカンファレンスを開催し、OpenAIのGPT-4モデルをOfficeスイートに正式に導入し、新AI機能Copilotを開始した。 PPTの作成やコピーの作成だけでなく、分析やビデオの生成も可能です。また、国内の大手メーカーもChatGPTと同様の製品の発売を発表しています。 2 月 8 日、Alibaba の専門家は、Damo Academy が ChatGPT のような会話ロボットを開発中で、テストのために社内の従業員に公開したというニュースを発表しました。 AI ラージ モデル テクノロジーと DingTalk 生産性ツールを深く組み合わせることが可能です。 2 月 8 日、JD.com の副社長、He Xiaodong 氏は率直に次のように述べました。JD.com は ChatGPT の分野で豊富なシナリオと高品質のデータを持っています。テンセントの関係筋は2月9日、「テンセントは現在、ChatGPTとAI生成コンテンツに類似した製品の計画を立てており、特別な研究も順調に進んでいる」と述べた。 NetEase は、同社の教育事業では、AI で話す教師、エッセイの採点と評価などを含む (ただしこれらに限定されない)、AI によって生成されたコンテンツを統合すると述べました。 3月16日、Baiduは大型言語モデルと生成AI製品「Wen Xin Yi Yan」を正式にリリースし、リリースから2日後に12社が最初の契約協力を完了し、Baidu Intelligent Cloud Wen Xin Yi Yan API呼び出しを申請した。テスト対象企業数は9万社に達した。
現在、大型模型は徐々に私たちの生活に浸透してきています。将来、あらゆる分野で地球を揺るがす変化が起こる可能性があります。 ChatGPT を例に挙げると、次の側面が含まれます:
ここでの主な議論は大規模な言語モデルの実装ですが、実際には、複数のモダリティ (オーディオ、ビデオ、画像) における他の大規模なモデルにも広範なアプリケーション シナリオがあることに注意してください。
は Google によってリリースされています。 LaMDA モデルはトランスフォーマー フレームワークに基づいており、1,370 億のモデル パラメーターがあり、テキストで長距離の依存関係をモデル化する機能があります。モデルは会話を通じてトレーニングされます。これには主に、事前トレーニングと微調整の 2 つのプロセスが含まれます。事前トレーニング段階では、言語モデル (LM) をトレーニングの目的関数として使用し、最大 1.56T の公開会話データセットと Web ページのテキストを使用しました。つまり、目的は次の文字 (トークン) を予測することです。微調整フェーズでは、言語モデルに人間の好みを与えるために、応答の属性 (感度、安全性など) のスコアリングなどの複数のタスクを設計しました。次の図は、微調整タスクの 1 つのタイプを示しています。
#LaMDA モデルの事前トレーニング フェーズ LaMDA モデルの微調整フェーズのタスクの 1 つLaMDA モデル 対話生成タスクに重点を置いていますが、事実誤認が頻繁にあります。 Googleは今年、LaMDAモデルを利用したBard(実験的な会話型AIサービス)をリリースした。しかし、バード氏の記者会見中にバード氏が事実誤認を犯したため、水曜日のグーグルの株価は急落し、日中8%以上下落し、更新日には約98ドルまで下がり、同社の時価総額は1100億ドル蒸発した。残念です。InstructGPT モデルは GPT アーキテクチャに基づいており、主に教師あり微調整 (Supervise Fune-Tuning、SFT) とヒューマン フィードバック強化学習 (Reinforce Learning) で構成されています。 Human Fune-チューニング、RLHF)。 InstructGPT を利用した会話型製品である ChatGPT は、言語テキストの生成に重点を置いており、コードを生成して単純な数学演算を実行することもできます。特定の技術的な詳細については、前の 2 回の号で詳しく説明されているので、読者はそこにアクセスして読むことができ、ここでは繰り返しません。
InstructGPT モデル トレーニング フローチャート
Cluadeモデル トレーニング フローチャート
Cluade は、Anthropic Company の会話型製品です。 Cluade は、ChatGPT と同様、GPT フレームワークに基づいており、一方向の言語モデルです。ただし、ChatGPT とは異なり、教師あり微調整と AI フィードバックを備えた強化学習によって主にトレーニングされます。教師あり微調整段階では、まず有害情報禁止、人種偏見禁止などの一連のルール(憲法)を策定し、そのルールに基づいて教師ありデータを取得します。次に、AI に応答の品質を判断させ、強化学習用のデータセットを自動的にトレーニングさせます。
ChatGPT と比較して、Claude は不適切な要求をより明確に拒否でき、文間のつながりもより自然です。クロードは、自分の能力を超えた問題に直面したとき、喜んで声を上げます。現在、Cluade はまだ内部テスト段階にあります。ただし、Scale Sepllbook チーム メンバーの内部テスト結果によると、ChatGPT と比較して、テストされた 12 タスクのうち 8 タスクにおいてクロードの方が優れています。
国内外の大規模言語モデルに関する統計、モデルの機能、オープンソースの状況などをまとめています。
国内人気大規模言語モデル
海外人気大規模言語モデル
ご覧いただけます大規模な言語モデルには、少数ショット学習、ゼロショット転送などを含む (ただしこれらに限定されない) さまざまな機能があることが判明しました。そこで、これらの能力はどのようにして得られるのでしょうか?という非常に自然な疑問が生じます。大規模な言語モデルの力はどこから来るのでしょうか?次に、上記の疑問に答えていきます。
下の図は、成熟した大規模言語モデルと進化のプロセスを示しています。要約すると、ほとんどのモデルは、事前トレーニング、命令の微調整、調整という 3 つの段階を経ます。代表的なモデルとしては、DeepmindのSparrowやOpenAIのChatGPTなどがあります。
一般的な大規模言語モデルの進化図
それでは、各ステップの背後で、モデルはどのような機能を実現できるのでしょうか?エディンバラ大学のフー・ヤオ博士は、歩数と能力の対応関係について自身の考えを要約し、私たちにインスピレーションを与えてくれました。
1. 事前トレーニング フェーズ: このフェーズの目標は、強力な基本モデルを取得することです。同様に、この段階でモデルによって実証される機能には、言語生成、コンテキスト学習機能、世界知識、推論機能などが含まれます。現段階での代表的なモデルとしてはGPT-3、PaLMなどが挙げられます。
2. 命令の微調整段階。このフェーズの目標は、いくつかの新たな能力のロックを解除することです。ここでの創発的能力とは、具体的には小型モデルにはなく、大型モデルのみが有する能力を指す。命令微調整を行ったモデルは、ベーシックモデルにはない機能を備えています。例えば、新しい命令を構築することで、モデルが新しいタスクを解決できるようになったり、思考連鎖の能力、つまり推論の過程をモデルに見せることで、モデルが正しい推論を模倣することもできるようになるなどのモデルが代表的です。 GPT、Flanなどを指示します。
アライメント段階。この段階の目標は、有益な返答を生成し、差別的な発言を生成しないなど、モデルに人間の価値観を持たせることです。アライメント段階によってモデルに「個性」が与えられると考えられます。このタイプの代表的なモデルは ChatGPT です。
大規模な言語モデルの 3 段階。この写真は「Fu Yao: 大規模言語モデルの能力の源について」から引用しました
一般に、上記の 3 つの段階は相互に補完し合い、不可欠です。十分に強力な基本モデルが事前トレーニング段階で得られた場合にのみ、命令の微調整を通じて言語モデルの他の機能を刺激 (または強化) することができます。アライメント段階では、人間社会のいくつかの要件によりよく準拠するために、モデルに特定の「特性」を与えます。
大規模言語モデル技術は利便性をもたらしますが、リスクと課題も伴います。 GPTにより生成される有害な発言等のコンテンツの信頼性は技術レベルで保証できません。使用レベルでは、ユーザーは教育や科学研究などの分野で AI が生成したテキストを悪用する可能性があります。現在、多くの企業や機関が ChatGPT の使用に制限を課し始めています。 MicrosoftとAmazonは、機密情報漏洩を恐れて企業従業員が機密データをChatGPTに共有することを禁止し、香港大学は香港大学のすべての授業、課題、評価においてChatGPTやその他の人工知能ツールの使用を禁止した。主に業界の関連作品を紹介しています。
GPTZero: GPTZero は、最も初期のテキスト生成および識別ツールです。これは、Edward Tian (米国プリンストン出身の CS 学部生) が公開するオンライン Web サイト (https://gptzero.me/) です。その原理は、特定のコンテンツを誰が書いたかを判断する指標としてテキストの複雑さ (PPL) に依存しています。このうち、パープレキシティは言語モデルの品質を評価するために使用され、本質的には文が出現する確率を計算するために使用されます。
#GPTZero Web サイト インターフェイス (ここでは、ChatGPT を使用してニュース レポートを生成し、生成されたテキストであるかどうかを GPTZero に判断させます。) GPT2 出力検出器: このツールは OpenAI によって公開されています。 RoBerta で微調整された「GPT2 生成コンテンツ」と Reddit データセットを利用して、検出分類器を学習します。それは、「魔法には魔法で対抗する」ということ。公式ウェブサイトでは、テキストが 50 文字 (トークン) を超える場合にのみ、予測結果の信頼性が高まることも注意しています。 GPT2 Output Detector Web サイト インターフェイスAI Text Classifier: このツールは OpenAI によって公開されています。原則は、同じテーマについて人間が書いたテキストと AI が書いたテキストを収集することです。各テキストをプロンプトと応答のペアに分割し、微調整後に GPT が回答を生成する確率 (たとえば、GPT に Yes/No を生成させる) を結果のしきい値とします。このツールの分類は非常に詳細で、結果には AI によって生成された可能性が非常に低い (しきい値 0.98)。 AI Text Classifier Web サイト インターフェイス5. 概要と展望大規模な言語モデルには、小規模なモデルにはない新しい機能があります。優れたゼロサンプル学習、ドメイン転送、思考連鎖機能など。大規模モデルのパワーは、実際には事前トレーニング、命令の微調整、調整から得られます。これら 3 つのプロセスは密接に関連しており、今日の超強力な大規模言語モデルを可能にしました。 大規模言語モデル (GPT シリーズ) には、現在、信頼度の更新、形式的推論、インターネット検索などの機能がありません。一部の専門家は、知識をモデルの外にオフロードできれば、パラメーターの数は増加すると考えています。モデルはさらに一歩前進することができます。 合理的な監督とガバナンスの下でのみ、人工知能テクノロジーは人々により良いサービスを提供できます。中国で大型モデルを開発するまでの道のりは長い! 参考文献[1] https://stablediffusionweb.com[2] https://openai.com/product/gpt-4[3] LaMDA: ダイアログ アプリケーションの言語モデル、Arxiv 2022.10[4] 憲法上の AI: AI フィードバックによる無害性、Arxiv 2022.12[5] https://scale.com / blog/chatgpt-vs-claude#Calculation[6] 国聯証券: 「ChatGPT が登場し、商業化が加速している」 [7] 国泰君安証券: 「ChatGPT 研究フレームワーク 2023」 [8] Fu Yao: 事前トレーニング、指示の微調整、調整、専門化: 大規模な言語モデル機能のソースについて https://www.bilibili.com/video/BV1Qs4y1h7pn/?spm_id_from= 333.880 .my_history.page.click&vd_source=da8bf0b993cab65c4de0f26405823475[9] 10,000 ワードの長文記事の分析! GPT-3/ChatGPT を再現して使用する、知っておくべきこと https://mp.weixin.qq.com/s/ILpbRRNP10Ef1z3lb2CqmA以上がChatGPT 特別トピック: 大規模言語モデルの機能と将来の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。