数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?-AI-php.cn

パラメータが多すぎると過学習が発生しますか?

今はデータ中心の基本モデルの時代なのかもしれませんね。

ホームページ

テクノロジー周辺機器

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

王林

May 08, 2023 am 08:46 AM

ai モデル

近年、GPT-3、CLIP、DALL-E、Imagen、Stabile Diffusionなどのベーシックモデルの登場には目を見張るものがあります。これらのモデルによって実証された強力な生成機能と文脈学習機能は、ほんの数年前には想像もできなかったものでした。この記事では、これらの大規模テクノロジーの商用化について検討します。これらのモデルは現在、業界大手だけの領域ではなく、その価値は分野や重要な問題の説明にますます反映されており、その中心となるのはデータです。基礎となるモデルの急速な開発の影響はまだ特定されていないため、多くは推測に基づいています。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「タコキャット」 (あまり真剣に考えないでください)

機械学習の観点から見ると、タスクの概念は非常に基本的なものです。タスクを指定するトレーニングデータを作成し、トレーニングを通じて一般化します。したがって、業界では何十年もの間、次の 2 つの主要な見解がありました。

#「無駄な入力、無駄な出力」、つまり、システムに入力されるデータ/機能情報です。モデルによって、モデルの成功か失敗が決まります。
「パラメータが多すぎると過学習につながります。」過去 20 年間、一般モデルと疎モデルの開発が一般的になってきました。一般に、スパースモデルにはパラメータが少ないため、過剰適合が軽減され、より適切に一般化できると考えられています。

これらの見解は一般に合理的ですが、いくぶん誤解を招きやすいものでもあります。

基本モデルは、広範囲のデータでトレーニングでき、さまざまなタスクに使用できるため、タスクに対する私たちの理解を変えています。一部のユーザーが対象のタスクを明確に理解していない場合でも、特別なトレーニングを必要とせずにこれらのモデルを簡単に適用できます。これらのモデルは自然言語またはインターフェイスを使用して制御できるため、分野の専門家がモデルの使用を推進し、新しい環境ですぐに魔法を体験できるようになります。この探索プロセスにおいて、ユーザーの最初のステップは、特定のトレーニングデータセットを厳選することではなく、遊んでアイデアを出し、アイデアを素早く反復することです。基本モデルを手に入れたので、それがまだ想像していなかったタスクを含むさまざまなタスクにどのように適用されるのかをさらに知りたいと思いました。

人工知能開発の次の波から利益を得るには、これまでの主流の見解の限界 (および知恵) を再検討する必要があるかもしれません。この記事では、そこから始めて、基本モデルにどのような変更が見られるかを調査し、最後に基本モデルが従来のアプローチにどのように適合するかを説明します。

無駄な入力、無駄な出力、それだけですか?

タスクレスの基本モデルは爆発的に増加しています。これまでのところ、その多くはモデルのアーキテクチャとエンジニアリングに関するものでしたが、これらのモデルがどのように統合されるかの兆しが見え始めています。データが基盤となり、差別化の根本的なポイントになった前例はありますか?私たちは、教師あり機械学習におけるモデル中心のアプローチとデータ中心のアプローチの間を行ったり来たりするのを見てきました。

2010 年代後半の一連のプロジェクトでは、機能の品質が鍵でした。古いモデルでは、機能はドメインの知識をエンコードするツールでした。これらの特徴は安定性が低く、処理担当者は、より安定した信頼性の高い予測を得るために、この情報を特徴付ける方法について低レベルの詳細を習得する必要があります。

ディープラーニングが成功するのは、人々がこれらのことが苦手であるためです。ディープラーニング革命が本格化しており、arXivでは新しいモデルが次々と登場しており、本当に衝撃的です。これらのモデルは、特徴量エンジニアリングなど、以前は手動で行っていた操作を完全に自動化します。このモデルは優れており、深層学習を通じてテキストや画像などの生データを適切に特徴付けることができます。これは生産性の大幅な向上です。ただし、これらのモデルは完璧ではなく、この分野を継続的に理解することが依然として重要です。では、これをモデルにどのように組み込むのでしょうか?

ユーザーは、効率的に情報を入力し、アプリケーションを解釈し、モデルと対話するためのキャリアとしてトレーニングデータを使用していることがわかります。これはすべて、ツール、理論、抽象化なしに「暗闇」で起こります。私たちは、ユーザーが自分のデータに対して基本的なプログラミングの抽象化を行うことができるべきだと考え、Snorkel プロジェクト (そして会社) が誕生しました。したがって、知識レベルでは、データ中心の AI と弱い監視の時代に入っています。ここから 2 つの重要な教訓を学ぶことができます:

ある技術が安定すると、その価値はデータに戻ります。この場合、TensorFlow、PyTorch、MXNet、Theano などのテクノロジーの登場により、ディープラーニング技術が商用化され始めましたが、具体的な問題の説明では、データの分布、タスクの仕様、等したがって、成功は関連情報をモデルにどのように導入するかにかかっています。
ノイズに対処できる (そして対処する必要がある) のです。基本的な数学と工学は原理的にノイズ処理に役立ちます。ユーザーが自分の知識をトレーニングデータで完全に表現することは困難であり、データソースによって品質が異なる場合があります。弱い監視の基本理論を研究したところ、モデルはノイズの多いデータから多くのことを学習できることがわかりました (すべての役に立たないデータが悪いわけではありません)。とはいえ、無駄な情報を入力することは避けてください。ただし、データにこだわりすぎないように注意してください。

プロンプト: "ノイズのある画像" ノイズのある画像から何か興味深いものは見つかりましたか?

# 簡単に言えば、データは質問や分析をコード化します。たとえテクノロジーがコモディティ化したとしても、データの価値は残ります。したがって、役に立たない情報が良いというわけではありませんが、この区別を絶対化しすぎないでください。データが役に立つか役に立たないかは、最も効果的な方法で活用されるかどうかによって決まります。

基本モデルは大量のデータに基づいてトレーニングされ、さまざまなタスクで広く使用されており、データ管理に新たな課題をもたらしています。モデル/アーキテクチャのコモディティ化が進むにつれて、モデルの汎用性を確保するために大量のデータを効率的に管理する方法を理解する必要があります。

パラメータが多すぎると過学習が発生しますか?

魔法のようなコンテキスト上の特徴が見られるのはなぜでしょうか?モデリングの選択 (アーキテクチャとアルゴリズム) はこれにどのように貢献しますか?大規模な言語モデルの魔法の特性は、神秘的なモデル構成から来ているのでしょうか?

約 10 年前、大まかな機械学習の一般化理論では、モデルが倹約的すぎる (つまり、あまりにも多くの偽の特徴を当てはめることができない) 場合、モデルは一般化されると考えられていました。これについては、VC 次元や Rademacher の複雑さなどの理論分野における主要な成果として、より正確に説明できるかもしれません。その過程で、一般化には少数のパラメータも必要であるらしいことがわかりました。しかし、そうではありません。過剰なパラメータ化は大きな問題ですが、現在は反例として大規模なモデルがあります。これらの大規模なモデル (データポイントよりもパラメータが多い) は、気が遠くなるような複雑なあらゆる種類の関数に適合しますが、それでも一般的です。 (ランダムなラベルが付いている場合でも) 化されます。

過剰なパラメータ化の考え方は私たちに誤解を招きますが、最近の洞察により新しい方向性が開かれました。これらの大規模なモデルには魔法のような機能がいくつか出現していますが、これらの機能は、ほとんどの人がアクセスできない、機械でトレーニングされた特定のアーキテクチャによってのみ有効になるというのが一般的な考えです。私たちや他の研究活動の 1 つの方向性は、これらの魔法の機能をシンプルで古典的なモデルに実装しようとすることです。私たちの最近の状態空間モデルは、数十年にわたる信号処理作業に基づいており (したがって、古典的なモデルに適合します)、いくつかの状況に応じた機能を示します。

さらに驚くべきことは、古典的な BERT 双方向モデルにもコンテキスト機能があることです。関連する論文を書いている人はまだたくさんいると思いますので、私たちに送っていただければ、注意深く読んで引用させていただきます。私たちは、文脈学習の魔法のような機能が私たちの周りにあふれており、宇宙は私たちが理解している以上に魔法的であると信じています。あるいは、もっと冷静に考えてみると、人間は条件付き確率を理解するのがそれほど得意ではないのかもしれません。

大規模なモデルフレームワーク内ではすべてが正常に動作しているようです。基礎となるモデルの魔法の機能は安定していて商業化可能であるように見え、データはその中での差別化ポイントとみなされます。

今はデータ中心の基本モデルの時代なのかもしれませんね。

私たちはデータ中心の教師あり学習への移行を繰り返しているのでしょうか?言い換えれば、モデルやエンジニアリングはコモディティ化しているのでしょうか?

コモディティ化されたモデルとオープンソース情報の台頭。私たちは、基本的なモデルがコモディティ化され、使用されているのを目にしています。そうですね、それは非常に「ディープラーニング」であると感じます。私たちにとって、モデルのコモディティ化の最大の証拠は、その入手可能性です。影響力には主に 2 つのタイプがあります。1 つは人々のニーズ (安定性など) であり、もう 1 つは大企業がそれを利用できることです。オープンソースは趣味的な関心から生まれたのではなく、大企業や政府外の人々がこのようなものが必要だと判断したために生まれました (「Python の台頭」を参照)。

最新のスーパー企業が新しいスーパーモデルを発売するのを待っていますか?

最大の違いはどこから来るのでしょうか?データ！これらのツールはますます利用可能になってきていますが、基礎となるモデルは必ずしもすぐに利用できるわけではありません。デプロイメントはどのように処理されるのでしょうか?新しいスーパー会社が新しいスーパーモデルを発売するのを待っていますか?これも一つの方法と言えるでしょう！しかし、私たちはそれをニヒリズムと呼びます。このモデルがオープンソースになるかどうかを言うのは難しいですが、API に送信できないプライベートデータを基盤とするモデルアプリケーションはどうなるでしょうか?モデルには 100 兆個のパラメータがあり、何人のユーザーがそれにアクセスして使用できるのでしょうか?モデルのトレーニング内容は何ですか?モデルは主に公開データに基づいてトレーニングされます...

つまり、関心のあることをモデルが認識できるという保証はほとんどないということですか?基本モデルが機能するように、その魔法の特性を維持するにはどうすればよいでしょうか?基礎となるモデルデータを効果的に管理し (データは重要です!)、テスト時に優れたオープンソースモデルを最大限に活用する必要があります (テスト中に入力データとコンテキストデータを適応させることが重要です!):

データ管理とデータ中心のスケーリング?予測: データセットを収集する賢い方法により、小さくて美しいモデルが得られます。私たちの目を開かせたスケーリング法の論文は注目に値します。たとえば、最初にスケーリング法を研究した OpenAI や DeepMind の Chinchilla などです。デフォルトの参照アーキテクチャ (変換) がありますが、トークンの数はデータの情報内容をある程度表します。経験上、データは主題と品質において大きく異なります。私たちは、本当に重要なのは、重複と秩序のある実際の情報ビットであるという予感を持っています。エントロピーのような情報理論の概念が、大規模および小規模ベースのモデルの進化を促進する可能性があります。

#テスト中の情報の入力と計算。基本モデルは必ずしもすぐに利用できるわけではありませんが、新しい方法でテストすると、計算に大きな違いが生じる可能性があります。クローズドソースモデル API の使用に伴うコストとプライバシーの欠如を考慮して、私たちは最近、テスト時に小さなモデルを効率的に使用することで仕様ベンチマークレベルで上回ることができる 30 分の 1 小さいパラメーターを備えたオープンソースのベースモデルを立ち上げました。 OpenAI のクローズドソースモデル - これこのアプローチは、Ask Me Anything (AMA) プロンプトと呼ばれます。テスト時、ユーザーは関心のあるタスクのプロンプトまたは自然言語説明を通じて基礎となるモデルを制御します。プロンプトの設計はパフォーマンスに大きな影響を与える可能性があります。プロンプトを正確に取得することは複雑で困難であるため、AMA は、さまざまな品質の一連のノイズの多いプロンプトを使用し、統計理論を使用してノイズ問題に対処することを推奨しています。 AMA には、Maeutic Prompting、リフレーミング GPT-k、AI チェーンなど、多くのインスピレーションの源があります。重要なのは、テスト時に新しい方法で計算を実行できることです。モデルに一度だけプロンプトを表示する必要はありません。これはトレーニング時のデータ管理だけでなく、テスト時の入力データとコンテキストデータの調整にも当てはまります。

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

プロンプト: 「本当に小さな AI モデル」

AMA より小規模なモデルはさまざまなタスクに適合する優れた推論能力をすでに備えていることがわかりますが、大規模なモデルの重要な価値は事実のデータを記憶することにあるようです。小さなモデルは事実に基づくパフォーマンスが低いため、この問題を解決するにはデータや情報をどのように導入すればよいでしょうか?奇妙なことに、SGD を使用してファクトをニューラルネットワークに保存し、それらをファジー浮動小数点値に変換します。この抽象化は、DRAM を使用したキーと値のストアよりもはるかに効率が悪いように見えます。ただし、AMA の結果を見ると、時間変動またはドメインに特化したファクトの点では、小規模モデルと大規模モデルの差ははるかに小さいことがわかります。私たち Apple は、自己構築時に返すファクトを編集できる必要があります。 - 監視対象モデル (ビジネス上の理由から)、サービスを実行するために他のソフトウェアツールを組み込む必要もあります。したがって、モデル呼び出しインデックスを持つことが非常に重要です。上記がこのタイプのモデルを使用する十分な理由であるかどうかは時間が経てばわかります。

これは私たちをどこへ導くのでしょうか?基本モデルは従来の手法と並行して機能します。データ中心のモデルが探索と展開の両方のエンドで進行していることを想定し、高速なイテレーションとタスクに依存しないワークフロー、つまり探索フェーズで、データ管理/テスト時間戦略を通じて、既製の一般的なベースモデルをより有用かつ効率的にします。ユーザーは、より明確なタスク定義を持って探索フェーズを終了し、データ中心の AI を使用し、複数のプロンプトやベースモデルを活用して組み合わせることでシュノーケルの方法でトレーニングデータ (独自のデータが重要です) を管理します。トレーニングをより小さく、より速く行うことができます。独自の」モデル。これらのモデルは実際の運用環境に導入でき、特定のタスクや特定のデータに対してより正確です。あるいは、基礎となるモデルを使用して、弱教師技術を改善することもできます。この技術により、研究室とシュノーケルのメンバーの一部が UAI 賞を受賞しました。

最終的な分析では、データはモデルの最終的な生産に関連します。コモディティ化されていないのはデータだけです。私たちは、Snorkel のデータの見方が前進する道であると今でも信じています。最終的なタスクに向けて展開可能なモデルをトレーニングするには、異種のデータソースと監視信号を表現、結合し、繰り返し修正する方法であるプログラミング抽象化が必要です。

以上が数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7722

Java チュートリアル

1642

CakePHP チュートリアル

1396

Laravel チュートリアル

1289

PHP チュートリアル

1233

Related knowledge

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

ハイブリッドブロックチェーン取引プラットフォームとは何ですか？ Apr 21, 2025 pm 11:36 PM

暗号通貨交換を選択するための提案：1。流動性の要件については、優先度は、その順序の深さと強力なボラティリティ抵抗のため、Binance、gate.ioまたはokxです。 2。コンプライアンスとセキュリティ、Coinbase、Kraken、Geminiには厳格な規制の承認があります。 3.革新的な機能、Kucoinのソフトステーキング、Bybitのデリバティブデザインは、上級ユーザーに適しています。

通貨サークル市場に関するリアルタイムデータの上位10の無料プラットフォーム推奨事項がリリースされます Apr 22, 2025 am 08:12 AM

初心者に適した暗号通貨データプラットフォームには、Coinmarketcapと非小さいトランペットが含まれます。 1。CoinMarketCapは、初心者と基本的な分析のニーズに合わせて、グローバルなリアルタイム価格、市場価値、取引量のランキングを提供します。 2。小さい引用は、中国のユーザーが低リスクの潜在的なプロジェクトをすばやくスクリーニングするのに適した中国フレンドリーなインターフェイスを提供します。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

See all articles

数百億、数千億のパラメータを持つ基本モデルの後は、データ中心の時代に突入するのでしょうか?

パラメータが多すぎると過学習が発生しますか?

今はデータ中心の基本モデルの時代なのかもしれませんね。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック