人工知能 (AI) は、私たちの生活、働き方、テクノロジーとの関わり方を変える上で大きな進歩を遂げています。最近、大きな進歩が見られた分野は、GPT-3、ChatGPT、GPT-4 などの大規模言語モデル (LLM) の開発です。これらのモデルは、言語翻訳、テキストの要約、質問応答などのタスクを正確に実行できます。
LLM のモデル サイズが増大し続けることを無視することは困難ですが、LLM の成功は主に多数の高品質データによるものであることを認識することも同様に重要です。 。
この記事では、データ中心の AI の観点から LLM の最近の進歩の概要を説明します。データ サイエンス コミュニティで成長しつつある概念であるデータ中心の AI レンズを通して GPT モデルを検証します。トレーニング データ開発、推論データ開発、データ メンテナンスという 3 つのデータ中心 AI 目標について説明することで、GPT モデルの背後にあるデータ中心 AI の概念を明らかにします。
LLM は、文脈内の単語を推測するようにトレーニングされた自然言語処理モデルです。たとえば、LLM の最も基本的な機能は、コンテキストに基づいて欠落しているマーカーを予測することです。これを行うために、LLM は、大量のデータから各候補単語の確率を予測するようにトレーニングされます。以下の図は、欠落マーカーの確率を予測するためにコンテキスト内で LLM を使用する例を示しています。
GPT モデルは、GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4 など、OpenAI によって作成された一連の LLM を指します。 。他の LLM と同様に、GPT モデルのアーキテクチャは主に Transformers に基づいており、テキストと位置の埋め込みを入力として使用し、アテンション レイヤーを使用してトークンの関係をモデル化します。
GPT-1 モデル アーキテクチャ
新しい GPT モデルは、より多くのモデル パラメーターとより多くのレイヤーを使用することを除いて、GPT-1 と同様のアーキテクチャを使用します。コンテキストの長さ、隠れ層のサイズなど。
データ中心の AI は、AI システムの構築方法に関する新たな考え方です。データ中心 AI は、人工知能システムの構築に使用されるデータを体系的に設計する分野です。
これまで、私たちはデータが基本的に変更されていない場合に、より優れたモデル (モデル中心 AI) を作成することに主に焦点を当ててきました。ただし、このアプローチでは、ラベルの不正確さ、重複、偏りなど、データ内で発生する可能性のあるさまざまな問題が考慮されていないため、現実の世界で問題が発生する可能性があります。したがって、データセットを「過剰適合」しても、必ずしもモデルの動作が向上するとは限りません。
対照的に、データ中心の AI は、AI システムの構築に使用されるデータの質と量の向上に焦点を当てています。これは、データ自体に注目し、モデルが比較的固定されていることを意味します。データ中心のアプローチを使用して AI システムを開発すると、トレーニングに使用されるデータが最終的にモデルの最大能力を決定するため、現実世界のシナリオではより大きな可能性が得られます。
「データ中心」と「データ駆動」の間には根本的な違いがあることに注意してください。後者は、人工知能の開発を導くためにデータを使用することのみを強調しており、通常は引き続きモデルの開発に焦点を当てます。データではなく。
データ中心の人工知能とモデル中心の人工知能の比較
データ中心の AI フレームワークには 3 つのターゲットが含まれます:
トレーニング データの開発。 GPT モデルのトレーニングに使用されるデータの量と質は、データ収集、データのラベル付け、およびデータ準備戦略の改善により大幅に向上しました。
最近の GPT モデルは十分強力になっているので、モデルを固定したままヒントを調整したり、推論データを調整したりすることで、さまざまな目的を達成できます。たとえば、要約するテキストと、推論プロセスをガイドする「要約してください」や「TL;DR」などの指示を提供することで、テキストの要約を実行できます。
時間内に調整する
#LLM 推論データ開発に関する研究はまだ初期段階にあります。近い将来、他のタスクに使用されてきた推論データ開発テクニックを LLM に適用できるようになります。
データのメンテナンス。 ChatGPT/GPT-4 は商用製品として、一度トレーニングされるだけでなく、継続的に更新および保守されます。当然のことながら、OpenAI の外部でデータのメンテナンスがどのように行われているかを知る方法はありません。したがって、GPT モデルに使用されてきた、または使用される可能性が高い、一般的なデータ中心の AI 戦略について説明します。
- 継続的なデータ収集: ChatGPT/GPT-4 を使用する場合、ヒント/フィードバックは次のとおりです。次に、OpenAI がモデルをさらに進化させるために使用します。品質指標と保証戦略は、プロセス中に高品質のデータを収集するために設計および実装されている場合があります。
- データ理解ツール: ユーザー データを視覚化して理解するためのさまざまなツールを開発して、ユーザー ニーズの理解を促進し、将来の改善の方向性を導きます。
- 効率的なデータ処理: ChatGPT/GPT-4 ユーザー数の急速な増加に伴い、迅速なデータ収集を実現するには効率的なデータ管理システムが必要です。
上の図は、ChatGPT/GPT-4 が「好き」と「嫌い」を通じてユーザーのフィードバックを収集する例です。
LLM の成功は、人工知能に革命をもたらしました。今後、LLM はデータ サイエンスのライフサイクルをさらに変革する可能性があります。私たちは 2 つの予測を立てています:
実行される LLM の助けを借りて、多くの面倒なデータ サイエンス タスクをより効率的に行うことができます。たとえば、ChaGPT/GPT-4 では、データを処理してクリーンアップするための実用的なコードを作成することがすでに可能になっています。さらに、LLM を使用してトレーニング データを作成することもできます。たとえば、LLM を使用して合成データを生成すると、テキスト マイニングにおけるモデルのパフォーマンスを向上させることができます。
以上がGPT モデルの背後にあるデータ中心の AI について話すの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。