目次
大規模言語モデル (LLM) と GPT モデル
データ中心の人工知能とは
適切な推論プロンプトをデザインすることは、困難な作業です。ヒューリスティックに大きく依存しています。優れた調査には、さまざまなプロモーション方法がまとめられています。場合によっては、意味的に類似したキューであっても、出力が大きく異なる場合があります。この場合、分散を減らすためにソフトキューベースのキャリブレーションが必要になる場合があります。
データ サイエンス コミュニティがこの LLM の波から学べること
ホームページ テクノロジー周辺機器 AI GPT モデルの背後にあるデータ中心の AI について話す

GPT モデルの背後にあるデータ中心の AI について話す

Apr 11, 2023 pm 11:55 PM
AI 自然言語 データ開発

人工知能 (AI) は、私たちの生活、働き方、テクノロジーとの関わり方を変える上で大きな進歩を遂げています。最近、大きな進歩が見られた分野は、GPT-3、ChatGPT、GPT-4 などの大規模言語モデル (LLM) の開発です。これらのモデルは、言語翻訳、テキストの要約、質問応答などのタスクを正確に実行できます。

GPT モデルの背後にあるデータ中心の AI について話す

LLM のモデル サイズが増大し続けることを無視することは困難ですが、LLM の成功は主に多数の高品質データによるものであることを認識することも同様に重要です。 。

この記事では、データ中心の AI の観点から LLM の最近の進歩の概要を説明します。データ サイエンス コミュニティで成長しつつある概念であるデータ中心の AI レンズを通して GPT モデルを検証します。トレーニング データ開発、推論データ開発、データ メンテナンスという 3 つのデータ中心 AI 目標について説明することで、GPT モデルの背後にあるデータ中心 AI の概念を明らかにします。

大規模言語モデル (LLM) と GPT モデル

LLM は、文脈内の単語を推測するようにトレーニングされた自然言語処理モデルです。たとえば、LLM の最も基本的な機能は、コンテキストに基づいて欠落しているマーカーを予測することです。これを行うために、LLM は、大量のデータから各候補単語の確率を予測するようにトレーニングされます。以下の図は、欠落マーカーの確率を予測するためにコンテキスト内で LLM を使用する例を示しています。

GPT モデルの背後にあるデータ中心の AI について話す

GPT モデルは、GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4 など、OpenAI によって作成された一連の LLM を指します。 。他の LLM と同様に、GPT モデルのアーキテクチャは主に Transformers に基づいており、テキストと位置の埋め込みを入力として使用し、アテンション レイヤーを使用してトークンの関係をモデル化します。

GPT モデルの背後にあるデータ中心の AI について話す

GPT-1 モデル アーキテクチャ

新しい GPT モデルは、より多くのモデル パラメーターとより多くのレイヤーを使用することを除いて、GPT-1 と同様のアーキテクチャを使用します。コンテキストの長さ、隠れ層のサイズなど。

GPT モデルの背後にあるデータ中心の AI について話す

データ中心の人工知能とは

データ中心の AI は、AI システムの構築方法に関する新たな考え方です。データ中心 AI は、人工知能システムの構築に使用されるデータを体系的に設計する分野です。

これまで、私たちはデータが基本的に変更されていない場合に、より優れたモデル (モデル中心 AI) を作成することに主に焦点を当ててきました。ただし、このアプローチでは、ラベルの不正確さ、重複、偏りなど、データ内で発生する可能性のあるさまざまな問題が考慮されていないため、現実の世界で問題が発生する可能性があります。したがって、データセットを「過剰適合」しても、必ずしもモデルの動作が向上するとは限りません。

対照的に、データ中心の AI は、AI システムの構築に使用されるデータの質と量の向上に焦点を当てています。これは、データ自体に注目し、モデルが比較的固定されていることを意味します。データ中心のアプローチを使用して AI システムを開発すると、トレーニングに使用されるデータが最終的にモデルの最大能力を決定するため、現実世界のシナリオではより大きな可能性が得られます。

「データ中心」と「データ駆動」の間には根本的な違いがあることに注意してください。後者は、人工知能の開発を導くためにデータを使用することのみを強調しており、通常は引き続きモデルの開発に焦点を当てます。データではなく。

GPT モデルの背後にあるデータ中心の AI について話す

データ中心の人工知能とモデル中心の人工知能の比較

データ中心の AI フレームワークには 3 つのターゲットが含まれます:

  • トレーニング データ開発 は、機械学習モデルのトレーニングをサポートするために、豊富で高品質のデータを収集および生成することです。
  • 推論データ開発は、モデルに対するより詳細な洞察を提供したり、データ入力を通じてモデルの特定の機能をトリガーしたりできる新しい評価セットを作成するためのものです。
  • データ メンテナンスは、動的環境におけるデータの品質と信頼性を確保することです。実世界のデータは一度作成されるのではなく、継続的なメンテナンスが必要であるため、データのメンテナンスは非常に重要です。

GPT モデルの背後にあるデータ中心の AI について話す

#データ中心の AI フレームワーク

データ中心の AI が GPT モデルを成功させる理由

数ヶ月 数ヶ月以前、Yann LeCun 氏は、ChatGPT は新しいものではないとツイートしました。実際、ChatGPT と GPT-4 で使用されるすべてのテクニック (トランスフォーマー、人間のフィードバックからの強化学習など) はまったく新しいものではありません。しかし、以前のモデルでは不可能な結果を​​達成しました。では、彼らの成功の理由は何でしょうか?

トレーニング データの開発。 GPT モデルのトレーニングに使用されるデータの量と質は、データ収集、データのラベル付け、およびデータ準備戦略の改善により大幅に向上しました。

  • GPT-1: BooksCorpus データセットはトレーニングに使用されます。データセットには、冒険、ファンタジー、ロマンスなどのさまざまなジャンルの書籍をカバーする 4629.00 MB の生テキストが含まれています。
    -データ中心の AI 戦略: なし。
    - 結果: このデータセットで GPT-1 を使用すると、微調整を通じて下流タスクのパフォーマンスを向上させることができます。
  • GPT-2: トレーニングで WebText を使用します。これは、Reddit から送信リンクをスクレイピングすることによって作成された OpenAI 内の内部データセットです。
    - データ中心の AI 戦略: (1) 少なくとも 3 カルマを獲得する Reddit からのアウトバウンドリンクのみを使用してデータを照合/フィルタリングします。 (2) ツール Dragnet と Newspaper を使用して、クリーンなコンテンツを抽出します。 (3) 重複排除やその他のヒューリスティックベースのクリーニングを使用します。
    - 結果: フィルタリング後のテキストは 40 GB。 GPT-2 は、微調整を行わなくても、堅牢なゼロショット結果を実現します。
  • GPT-3: GPT-3 のトレーニングは主に Common Crawl に基づいています。
    -データ中心の AI 戦略: (1) 各ドキュメントの WebText (高品質ドキュメント) との類似性に基づいて、低品質ドキュメントをフィルタリングするように分類器をトレーニングします。 (2) Spark の MinHashLSH を使用してドキュメントをあいまい化し、重複を排除します。 (3) WebText、書籍コーパス、Wikipedia を使用したデータ拡張。
    - 結果: 45TB のプレーンテキストがフィルタリングされ、570GB のテキストが取得されました (この品質フィルタリングではデータの 1.27% のみが選択されました)。 GPT-3 は、ゼロサンプル設定では GPT-2 を大幅に上回ります。
  • InstructGPT: 人間の評価により GPT-3 の回答を調整し、人間の期待に合わせます。彼らはアノテーター向けのテストを設計し、テストに合格した人だけがアノテーションを受ける資格を与えられました。彼らは、アノテーターがアノテーションのプロセスに完全に関与していることを確認するための調査も設計しました。
    -データ中心の AI 戦略: (1) 人間が提供するプロンプトに対する回答を使用した教師ありトレーニングを通じてモデルを調整します。 (2) 比較データを収集して報酬モデルをトレーニングし、この報酬モデルを使用してヒューマン フィードバックによる強化学習 (RLHF) を通じて GPT-3 を調整します。
    - 結果: InstructGPT は、より優れた現実性とより少ないバイアス、つまりより良い位置合わせを示します。
  • ChatGPT/GPT-4: OpenAI は詳細を明らかにしていません。しかし、皆さんがご存知のとおり、ChatGPT/GPT-4 は以前の GPT モデルの設計をほぼ踏襲しており、依然として RLHF を使用してモデルを調整しています (おそらく、より多くのより高品質なデータ/ラベルが使用されます)。 GPT-4 では、モデルの重みが増加するにつれて、より大きなデータセットが使用されることが一般に受け入れられています。
#推論データの開発。

最近の GPT モデルは十分強力になっているので、モデルを固定したままヒントを調整したり、推論データを調整したりすることで、さまざまな目的を達成できます。たとえば、要約するテキストと、推論プロセスをガイドする「要約してください」や「TL;DR」などの指示を提供することで、テキストの要約を実行できます。

GPT モデルの背後にあるデータ中心の AI について話す時間内に調整する

適切な推論プロンプトをデザインすることは、困難な作業です。ヒューリスティックに大きく依存しています。優れた調査には、さまざまなプロモーション方法がまとめられています。場合によっては、意味的に類似したキューであっても、出力が大きく異なる場合があります。この場合、分散を減らすためにソフトキューベースのキャリブレーションが必要になる場合があります。

GPT モデルの背後にあるデータ中心の AI について話す

#LLM 推論データ開発に関する研究はまだ初期段階にあります。近い将来、他のタスクに使用されてきた推論データ開発テクニックを LLM に適用できるようになります。

データのメンテナンス。 ChatGPT/GPT-4 は商用製品として、一度トレーニングされるだけでなく、継続的に更新および保守されます。当然のことながら、OpenAI の外部でデータのメンテナンスがどのように行われているかを知る方法はありません。したがって、GPT モデルに使用されてきた、または使用される可能性が高い、一般的なデータ中心の AI 戦略について説明します。
- 継続的なデータ収集: ChatGPT/GPT-4 を使用する場合、ヒント/フィードバックは次のとおりです。次に、OpenAI がモデルをさらに進化させるために使用します。品質指標と保証戦略は、プロセス中に高品質のデータを収集するために設計および実装されている場合があります。
- データ理解ツール: ユーザー データを視覚化して理解するためのさまざまなツールを開発して、ユーザー ニーズの理解を促進し、将来の改善の方向性を導きます。
- 効率的なデータ処理: ChatGPT/GPT-4 ユーザー数の急速な増加に伴い、迅速なデータ収集を実現するには効率的なデータ管理システムが必要です。

GPT モデルの背後にあるデータ中心の AI について話す

上の図は、ChatGPT/GPT-4 が「好き」と「嫌い」を通じてユーザーのフィードバックを収集する例です。

データ サイエンス コミュニティがこの LLM の波から学べること

LLM の成功は、人工知能に革命をもたらしました。今後、LLM はデータ サイエンスのライフサイクルをさらに変革する可能性があります。私たちは 2 つの予測を立てています:

  • データ中心の人工知能がより重要になる。 長年の研究を経て、特にTransformer以降、モデル設計は非常に成熟しました。データは将来、AI システムを改善するための重要な手段になります。また、モデルが十分に強力になると、日常の作業でモデルをトレーニングする必要がなくなります。代わりに、モデルから知識を探索するための適切な推論データを設計するだけで済みます。したがって、データ中心の AI の研究開発が将来の進歩を促進します。
  • LLM により、より優れたデータ中心の人工知能ソリューションが可能になります

実行される LLM の助けを借りて、多くの面倒なデータ サイエンス タスクをより効率的に行うことができます。たとえば、ChaGPT/GPT-4 では、データを処理してクリーンアップするための実用的なコードを作成することがすでに可能になっています。さらに、LLM を使用してトレーニング データを作成することもできます。たとえば、LLM を使用して合成データを生成すると、テキスト マイニングにおけるモデルのパフォーマンスを向上させることができます。

GPT モデルの背後にあるデータ中心の AI について話す

以上がGPT モデルの背後にあるデータ中心の AI について話すの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

See all articles