目次
データ中心の人工知能とは何ですか?
データ中心の人工知能が GPT モデルをこれほど成功させたのはなぜですか?
ホームページ テクノロジー周辺機器 AI GPTモデルにおけるデータ中心型AIの秘密

GPTモデルにおけるデータ中心型AIの秘密

Apr 30, 2023 pm 05:58 PM
AI chatgpt GPTモデル

翻訳者 | Zhu Xianzhong

査読者| Chonglou

GPTモデルにおけるデータ中心型AIの秘密

画像は記事 https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363 から引用したもので、著者自身が作成したものです。

人工知能は、私たちの生活、仕事、テクノロジーとの関わり方を変えるという驚くべき進歩を遂げています。最近、大きな進歩を遂げた分野は、 GPT-3 、## などの大規模言語モデル (LLM) の開発です。 #ChatGPT および GPT-4 。これらのモデルは、言語翻訳、テキストの要約、質問応答などのタスクを優れた精度で実行できます。 大規模な言語モデルのモデル サイズが増大し続けることを無視することはできませんが、その成功の主な要因は、言語モデルに使用される多数の高性能マシンによるものであることを認識することも同様に重要です。質の高いデータを提供します。

この記事では、最近の調査論文を参照しながら、データ中心の人工知能の観点から大規模言語モデルの最近の進歩の概要を説明します。 (終了 ドキュメント 1 および 2 のビュー) および GitHub 上の対応する

技術リソース

。特に、データ中心の 人工知能 のレンズを通して GPT モデルを詳しく見ていきます。データサイエンスコミュニティの視点。トレーニング データ開発、推論データ開発、データ メンテナンスという 3 つのデータ中心の人工知能の目標について説明することで、GPT モデルの背後にあるデータ中心の人工知能を明らかにします。 大規模言語モデルと GPT モデル LLM (大規模言語モデル) は、文脈内の単語を推測するようにトレーニングされた自然言語処理モデルです。たとえば、LLM の最も基本的な機能は、コンテキストに基づいて欠落しているトークンを予測することです。これを行うために、LLM は、大量のデータから各候補トークンの確率を予測するようにトレーニングされます。

#コンテキストを含む大規模な言語モデルを使用して、トークンが欠落する確率を予測する例 (著者提供)本人写真)

#

GPT モデルは、 GPT-1 など、OpenAI によって作成された一連の大規模言語モデルを指します。 GPT-2 GPT-3 InstructGPT および ChatGPT/GPT-4 。他の大規模言語モデルと同様に、GPT モデルのアーキテクチャは、テキストと位置の埋め込みを入力として使用し、アテンション レイヤーを使用してトークン間の関係をモデル化するトランスフォーマーに大きく基づいています。

GPTモデルにおけるデータ中心型AIの秘密

GPT-1 モデル アーキテクチャ図、この画像は論文から引用 https://www.php.cn/link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69

後の GPT モデルは GPT-1 と同様のアーキテクチャを使用しましたが、より多くのレイヤー、より大きなコンテキスト長、隠れ層サイズなどを備えた、より多くのモデル パラメーターを使用しました。

GPTモデルにおけるデータ中心型AIの秘密

GPTモデルの各モデルサイズの比較(写真提供:著者提供)

データ中心の人工知能とは何ですか?

データ中心の人工知能は、人工知能システムの構築方法に関する新たな考え方です。人工知能の先駆者であるアンドリュー・ン氏は、このアイデアを擁護してきました。

データ中心の人工知能は、人工知能システムの構築に使用されるデータの体系的エンジニアリングの分野です。

——Andrew Ng

これまでは、データが基本的に変更されていない場合に、より優れたモデル (モデル中心の人工知能) を作成することに主に焦点を当てていました。ただし、このアプローチでは、不正確なラベル、重複、バイアスなど、データ内で発生する可能性のあるさまざまな問題が考慮されていないため、現実の世界で問題が発生する可能性があります。したがって、データセットを「過剰適合」しても、必ずしもモデルの動作が改善されるとは限りません。

対照的に、データ中心の AI は、AI システムの構築に使用されるデータの質と量の向上に焦点を当てています。これは、モデルが比較的固定されている一方で、データ自体に注目が集まることを意味します。 AI システムを開発するためのデータ中心のアプローチは、トレーニングに使用されるデータが最終的にモデルの最大能力を決定するため、現実世界ではより大きな可能性を秘めています。

「データ中心」は「データ駆動」とは根本的に異なることに注意する価値があります。後者は、人為的データを導くためのデータの使用のみを強調するためです。一方、AI 開発は多くの場合、エンジニアリング データではなくモデルの開発を中心としています。

GPTモデルにおけるデータ中心型AIの秘密

データ中心の人工知能とモデル中心の AI の比較 (画像は https://www.php より) .cn/link/f9afa97535cf7c8789a1c50a2cd83787論文著者)

全体的に、データ中心の人工知能フレームワークは 3 つの目標で構成されています:

  • トレーニング データの開発とは、機械学習モデルのトレーニングをサポートするための、豊富で高品質なデータの収集と生成です。
  • 推論データ開発は、モデルにより詳細な洞察を提供したり、エンジニアリング データ入力を通じてモデルをトリガーしたりできる新しい評価セットを作成するために使用されます。
  • #データ保守とは、動的環境におけるデータの品質と信頼性を確保することです。実世界のデータは一度作成されるだけではなく、継続的なメンテナンスが必要となるため、データのメンテナンスは非常に重要です。

データ中心の人工知能フレームワーク (論文からの画像 https://www.php.cn/link/ f74412c3c1c8899f3c130bb30ed0e363 )

データ中心の人工知能が GPT モデルをこれほど成功させたのはなぜですか?

数か月前、人工知能業界のリーダーであるヤン・ルカン氏は、ChatGPT は新しいものではないと Twitter で述べました。実際、ChatGPT と GPT-4 で使用されているすべてのテクニック (Tトランスフォーマーや人間のフィードバックからの強化学習など) は新しいテクノロジーではありません。しかし、以前のモデルでは達成できなかった驚くべき結果を達成しました。では、何が彼らの成功を後押ししているのでしょうか?

GPTモデルにおけるデータ中心型AIの秘密

まず、トレーニングデータ開発を強化します。データ収集、データラベル付け、およびデータ準備戦略の改善により、GPT モデルのトレーニングに使用されるデータの量と質が大幅に増加しました。

  • GPT-1: BooksCorpus データセット はトレーニングに使用されます。データセットには 4629 MB の生のテキストが含まれており、冒険、ファンタジー、ロマンスなどのさまざまなジャンルの書籍がカバーされています。
  • #データ中心の AI 戦略を使用していない。
  • トレーニング結果: このデータセットに GPT-1 を適用すると、微調整を通じて下流タスクのパフォーマンスを向上させることができます。
  • データ中心の人工知能戦略を採用します: (1) 少なくとも 3 つの結果を受け取る Reddit からのアウトバウンド リンクのみを使用してデータを制御/フィルタリングします。( 2) Dragnet および Newspaper ツールを使用して「クリーンな」コンテンツを抽出する、(3) 重複排除およびその他のヒューリスティックベースの精製方法を採用する (詳細は論文では言及されていません)。
  • #トレーニング結果: 精製後に 40 GB のテキストが取得されました。 GPT-2 は、微調整を行わなくても、堅牢なゼロサンプル結果を実現します。
  • データ中心の人工知能戦略が使用されます: (1) WebText ドキュメントとの類似性に基づいて低品質のドキュメントをフィルタリングするように分類子をトレーニングします。 WebText は高品質のドキュメントのプロキシです。 (2) Spark の MinHashLSH を使用して、ドキュメントのファジー重複排除を実行します。 (3) WebText、書籍コーパス、Wikipedia を使用してデータを強化します。
  • トレーニング結果: 45TB のプレーンテキストから 570GB のテキストがフィルタリングされました (この品質フィルタリングではデータの 1.27% のみが選択されました)。ゼロサンプル設定では、GPT-3 は GPT-2 を大幅に上回ります。
  • は、データ中心の人工知能戦略を使用します。 (1) 手動で提供されたプロンプト回答を使用して、教師ありトレーニングを通じてモデルを調整します。 (2) 比較データを収集して報酬モデルをトレーニングし、その報酬モデルを使用してヒューマン フィードバックからの強化学習 (RLHF) を通じて GPT-3 を調整します。
  • トレーニング結果: InstructGPT は、信頼性が高く、バイアスが少ない、つまり一貫性が高いことを示しています。
  • GPT-2: WebText を使用しますトレーニングに来てください。これは、Reddit から送信リンクをスクレイピングすることによって作成された OpenAI 内の内部データセットです。
  • GPT-3: GPT-3 のトレーニングは主に Common Crawl ツール # に基づいています##。
  • InstructGPT: 人間の評価により GPT-3 の回答を調整して、人間の期待とより一致するようにします。彼らはアノテーター向けのテストを設計し、テストに合格した人だけがアノテーションを受ける資格を与えられました。さらに、アノテーターがアノテーションのプロセスを楽しんでいることを確認するための調査も設計しました。
  • ChatGPT/GPT-4: OpenAI は詳細を明らかにしていません。しかし、皆さんがご存知のとおり、ChatGPT/GPT-4 は以前の GPT モデルの設計をほぼ踏襲しており、依然として RLHF を使用してモデルを調整します (おそらくより多くのより高品質なデータ/ラベルを使用します)。一般に、GPT-4 はモデルの重みが増加するにつれてより大きなデータ セットを使用すると考えられています。
#2 番目に、推論データを作成します。最近の GPT モデルは十分強力になっているので、モデルを修正しながらヒントを調整する(または推論データを調整する)ことで、さまざまな目的を達成できます。たとえば、推論プロセスをガイドする「要約してください」や「TL

;DR」などの指示とともに要約のテキストを提供することで、テキスト要約を実行できます。

GPTモデルにおけるデータ中心型AIの秘密

##迅速な微調整

、写真:著者提供

適切な推論プロンプトを設計することは、困難な作業です。それはヒューリスティック技術に大きく依存しています。優れた調査は、人々がこれまでに使用したさまざまなプロンプト方法を要約しています。場合によっては、意味的に類似したキューであっても、出力が大きく異なる場合があります。この場合、不一致を減らすためにソフトキューベースのキャリブレーションが必要になる場合があります。

GPTモデルにおけるデータ中心型AIの秘密

#ソフト プロンプト ベースのキャリブレーション。この画像は、元の著者の許可を得て、論文 https://arxiv.org/abs/2303.13035v1 から引用したものです。

大規模な開発に関する研究-スケール言語モデル推論データはまだ初期段階にあります。近い将来、他のタスクですでに使用されている推論データ開発手法が、大規模言語モデルの分野にさらに適用される可能性があります。

データ保守の観点から見ると、商用製品である ChatGPT/GPT-4 は、一度トレーニングを成功させるだけではなく、継続的なトレーニングを必要とします。メンテナンス。当然のことながら、OpenAI の外部でデータ保守がどのように実行されるかはわかりません。したがって、GPT モデルで使用されている可能性が高い、または今後使用される可能性が高い、一般的なデータ中心の AI 戦略について説明します。

  • ##Continuous Dataコレクション: ChatGPT/GPT-4 を使用する場合、私たちのヒント/フィードバックは OpenAI によってモデルをさらに進化させるために使用されます。品質指標と保証戦略は、プロセス中に高品質のデータを収集するために設計および実装されている場合があります。
  • データ理解ツール: ユーザー データを視覚化して理解し、ユーザー ニーズの理解を促進し、ユーザーのニーズを理解するためのさまざまなツールが開発されている可能性があります。今後の改善の方向性。
  • 効率的なデータ処理: ChatGPT/GPT-4 ユーザー数の急速な増加に伴い、迅速なデータ収集を実現するには効率的なデータ管理システムが必要です。 . .

ChatGPT/GPT-4 システムは、図に示すように「賛成」と「反対」の 2 つのアイコン ボタンを通じてユーザーのフィードバックを収集し、さらなるプロモーションを行うことができます。彼らはシステム開発を行っています。ここのスクリーンショットは https://chat.openai.com/chat からのものです。

データ サイエンス コミュニティは、この大規模な言語モデルの波から何を学ぶことができるでしょうか?

大規模言語モデルの成功は、人工知能に革命をもたらしました。今後、大規模な言語モデルはデータ サイエンスのライフサイクルにさらに革命を起こす可能性があります。この目的のために、私たちは 2 つの予測を立てます。

  • データ中心の人工知能がより重要になる。長年の研究を経て、特にトランスフォーマー以降、モデルの設計は非常に成熟しました。エンジニアリング データは、将来 AI システムを改善するための重要な (またはおそらく唯一の) 方法になります。さらに、モデルが十分強力になると、日常業務でモデルをトレーニングする必要がなくなります。代わりに、モデルから知識を探索するための適切な推論データ (ジャストインタイム エンジニアリング) を設計するだけで済みます。したがって、データ中心の AI の研究開発が将来の進歩を促進します。
  • 大規模な言語モデルにより、より優れたデータ中心の人工知能ソリューションが可能になります。大規模な言語モデルを利用すると、退屈なデータ サイエンス タスクの多くをより効率的に実行できます。たとえば、ChaGPT/GPT-4 では、データを処理およびクリーンアップするためのオペレーショナル コードを記述することがすでに可能になっています。さらに、大規模な言語モデルを使用してトレーニング用のデータを作成することもできます。たとえば、最近の研究では、大規模な言語モデルを使用して合成データを生成すると、臨床テキスト マイニングにおけるモデルのパフォーマンスが向上することが示されています。

GPTモデルにおけるデータ中心型AIの秘密

大規模な言語モデルを使用して合成データを生成し、モデルをトレーニングします。ここにある画像は、論文 https://arxiv.org/abs/2303.04360、原著者の許可を得て

参考文献

この記事ができることを願っていますあなた自身の仕事にインスピレーションを与えるために使用してください。データ中心の AI フレームワークと、それが大規模な言語モデルにどのようなメリットをもたらすかについて詳しくは、次の論文をご覧ください:

[1] データ中心型人工知能のレビュー

[2] データ中心型人工知能の展望と課題

当社では GitHub コード リポジトリ も管理していることに注意してください。これは定期的に更新されます。データ中心の人工知能リソース。

#今後の記事では、データ中心人工知能の 3 つの目標 (学習データ開発、推論データ開発、データ保守) を掘り下げ、代表的な性的手法を紹介します。

翻訳者紹介

Zhu Xianzhong、51CTOコミュニティ編集者、51CTOエキスパートブロガー、講師、濰坊の大学のコンピューター教師、フリーランスプログラミングコミュニティ ベテラン。

元のタイトル: データ中心の AI 概念とはGPT モデルの背後にありますか? 、著者: Henry Lai

以上がGPTモデルにおけるデータ中心型AIの秘密の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して画像を生成できるようになりました ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して画像を生成できるようになりました Aug 09, 2024 pm 09:37 PM

DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導入されました。これは、複雑な詳細を含む画像を作成できる、これまでで最高の AI 画像ジェネレーターの 1 つと考えられています。ただし、発売当初は対象外でした

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

AIなどの市場を開拓するグローバルファウンドリーズがタゴール・テクノロジーの窒化ガリウム技術と関連チームを買収 AIなどの市場を開拓するグローバルファウンドリーズがタゴール・テクノロジーの窒化ガリウム技術と関連チームを買収 Jul 15, 2024 pm 12:21 PM

7月5日のこのウェブサイトのニュースによると、グローバルファウンドリーズは今年7月1日にプレスリリースを発行し、自動車とインターネットでの市場シェア拡大を目指してタゴール・テクノロジーのパワー窒化ガリウム(GaN)技術と知的財産ポートフォリオを買収したことを発表した。モノと人工知能データセンターのアプリケーション分野で、より高い効率とより優れたパフォーマンスを探求します。生成 AI などのテクノロジーがデジタル世界で発展を続ける中、窒化ガリウム (GaN) は、特にデータセンターにおいて、持続可能で効率的な電力管理のための重要なソリューションとなっています。このウェブサイトは、この買収中にタゴール・テクノロジーのエンジニアリングチームがGLOBALFOUNDRIESに加わり、窒化ガリウム技術をさらに開発するという公式発表を引用した。 G

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

See all articles