データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます
基本モデルのスケーリングとは、事前トレーニングにより多くのデータ、計算、パラメーターを使用することを指します。これは単に「スケール拡張」です。
モデルのサイズを直接拡張するのは単純で粗雑なように見えますが、実際に多くの優れたモデルを機械学習コミュニティにもたらしました。これまでの多くの研究では、神経経済モデルの規模を拡大すると、いわゆる量的変化が質的変化を引き起こすことが認識されています。この考え方は、ニューラル スケーリング則としても知られています。 ただし、モデルのサイズが大きくなると、コンピューティング リソースが集中的に消費されます。これは、モデルが大きくなると、プロセッサやメモリなど、より多くのコンピューティング リソースが必要になることを意味します。これは、多くの実際のアプリケーション、特にリソースに制約のあるデバイスでは実現できません。 したがって、研究者は、モデルを改善するためにコンピューティング リソースをより効率的に使用する方法に焦点を当て始めています。LLM であっても、VLM であっても、普及モデルである現在の最良のクローズド ソース モデルの鍵は「データ」であると多くの人が考えています。 。データ品質の重要性が認識されるにつれ、大規模なデータベースから高品質のデータをフィルタリングするか、高品質の新しいデータを生成するなど、データ品質の向上を目的とした多くの研究が行われています。しかし、これまでの拡大法は一般に「データ」を同質な存在として捉え、最近注目されている「データの品質」を考慮次元としていませんでした。
ウェブ上のデータ モデルは膨大であるにもかかわらず、高品質のデータ (複数の評価指標に基づく) は限られていることがよくあります。今、画期的な研究が行われています - データ フィルタリングの次元における拡張則です。これはカーネギー メロン大学とボッシュ AI センターによるもので、「大規模」と「高品質」の間の量と質のトレードオフ (QQT) に特に焦点を当てています。
- 論文のアドレス: https://arxiv.org/pdf/2404.07177。 PDF
- コードアドレス: https://github.com/locuslab/scaling_laws_data_filtering
図1に示すように、複数のエポックをトレーニングする場合、高品質のデータのユーティリティ(ユーティリティ) ) は大きくありません (モデルが学習を完了しているため)。
現時点では、多くの場合、高品質のデータを再利用するよりも、低品質のデータ (最初は実用性が低い) を使用する方が役立ちます。
量と質のトレードオフ (QQT) の下で、どのような種類のデータの組み合わせがトレーニングに適しているかをどのように判断すればよいでしょうか?
この質問に答えるには、データ キュレーション ワークフローでは、モデルのトレーニングに使用される合計計算量を考慮する必要があります。これは、データ フィルタリングに関するコミュニティの見解とは異なります。たとえば、LAION フィルタリング戦略は、一般的なクロール結果から最高品質の 10% を抽出します。
しかし、図 2 からわかるように、トレーニングが 35 エポックを超えると、完全に組織化されていないデータセットでのトレーニングの効果は、LAION 戦略を使用して組織化された高品質のデータでのトレーニングよりも優れていることは明らかです。
現在の神経拡張法則では、この質と量の間の動的なトレードオフをモデル化できません。さらに、視覚言語モデルの拡張に関する研究はさらに少なく、現在の研究のほとんどは言語モデリングの分野に限定されています。
今日紹介する画期的な研究は、以前のニューラル拡張の法則の 3 つの重要な制限を克服し、それを実現しました。
(1) データを拡張するときに「品質」軸を考慮する
(2) データ プールの組み合わせの拡張則を推定します (組み合わせについて実際にトレーニングすることはありません)。これは、最適なデータ統合の決定に役立ちます。
(3) LLM 拡張則を調整します。これにより、対比に適します。トレーニング (CLIP など)。各バッチには平方数の比較があります。
チームは、異種かつ限られた量のネットワーク データに対する拡張則を初めて提案しました。
大規模なモデルは、さまざまな品質のデータ プールの組み合わせでトレーニングされます。個々のデータ プールの拡散パラメーター (図 1 (a) の A ~ F) から導出される集約データ ユーティリティをモデル化することにより、これらのデータ プールの任意の組み合わせでモデルのパフォーマンスを直接推定することができます。
この方法では、展開則を推定するためにこれらのデータ プールの組み合わせに関するトレーニングを必要とせず、各コンポーネント プールの展開パラメータに基づいて展開曲線を直接推定できることを指摘することが重要です。
過去の拡張則と比較すると、ここでの拡張則にはいくつかの重要な違いがあり、トレーニングメカニズムの繰り返しをモデル化して比較し、O (n²) の比較を実現できます。たとえば、トレーニング プールのサイズが 2 倍になると、モデルの損失に寄与する比較の数は 4 倍になります。
これらは、異なるプールのデータがどのように相互作用するかを数学的に記述し、データの異なる組み合わせの下でモデルのパフォーマンスを推定できるようにします。これにより、現在利用可能な計算に適したデータ編成戦略が得られます。
この研究からの重要なメッセージは次のとおりです: データの編集は計算なしでは行えません。
図 1 の低い計算量での積極的なフィルタリング (E) の最高のパフォーマンスに示されているように、計算予算が小さい (繰り返しが少ない) 場合、QQT のトレードオフの下で品質が優先されます。
一方で、使用する学習データをはるかに超える計算規模になると、限られた良質なデータの有用性が低下するため、それを補う工夫が必要になります。これにより、フィルタリング戦略があまり積極的ではなくなり、データ量が増えてもパフォーマンスが向上します。
チームは、異種ネットワーク データに対するこの新しいスケーリング則が、DataComp の中規模プール (1 億 2,800 万サンプル) 最適フィルタリング戦略を使用して、3,200 万から 6 億 4,000 万のさまざまなコンピューティング予算の下でパレートを予測できることを示す実験デモンストレーションを実施しました。
特定のコンピューティング予算の下でのデータ フィルタリング
チームは、実験を通じて、さまざまなコンピューティング予算の下でのデータ フィルタリングの効果を研究しました。
彼らは、大規模な初期データプールを使用して VLM をトレーニングしました。フィルタリングされていない基本データ プールには、最近のデータ コンパイル ベンチマークである Datacomp の「中規模」バージョンを選択しました。データ プールには 1 億 2,800 万のサンプルが含まれています。彼らは 18 の異なるダウンストリーム タスクを使用して、モデルのゼロショット パフォーマンスを評価しました。
彼らはまず、LAION データセットを取得するために使用される LAION フィルタリング戦略を研究しました。その結果を図 2 に示します。彼らは次の結果を観察しました:
1. 計算予算が低い場合は、高品質のデータを使用する方が良いです。
2. コンピューティング予算が高い場合、データ フィルタリングが障害を引き起こす可能性があります。
なぜですか?
LAION フィルタリングはデータの約 10% を保持するため、計算予算は約 4 億 5000 万で、フィルタリングされた LAION プールの各サンプルは約 32 回使用されます。ここで重要な洞察は、トレーニング中に同じサンプルが複数回見られる場合、そのたびに効用が減少するということです。
チームはその後、他の 2 つのデータ フィルタリング方法を研究しました:
(1) CLIP L/14 モデルを使用した CLIP スコア フィルタリング
(2) マスキング後の T-MARS データはランク付けされます。画像内のテキスト特徴後の CLIP スコア (OCR) に基づきます。データ フィルタリング手法ごとに、4 つのフィルタリング レベルとさまざまな合計計算量を使用しました。
図 3 は、計算規模が 32M、128M、および 640M の場合の上位 10 ~ 20%、上位 30%、および上位 40% の CLIP フィルタリングの結果の比較を示しています。
3,200 万のコンピューティング スケールでは、非常に積極的なフィルタリング戦略 (CLIP スコアに基づいて上位 10 ~ 20% のみを保持) が最良の結果をもたらしましたが、上位 40% を保持する最も積極的でないフィルタリング方法では、最高の違い。しかし、計算規模が6億4000万まで拡大すると、この傾向は完全に逆転します。 T-MARS スコア指標を使用しても同様の傾向が観察されます。
データフィルタリングの展開則
チームは最初に効用を数学的に定義しました。
彼らのアプローチは、トレーニング終了時の n 個のサンプルの損失を推定することではなく、トレーニング段階中の任意の時点でのサンプルの瞬間的な有用性を考慮することです。数式は次のとおりです:
これは、サンプルの瞬間的な有用性が現在の損失に正比例し、これまでに確認されたサンプルの数に反比例することを示しています。これは、モデルによって認識されるサンプルの数が増加するにつれて、サンプルの有効性が低下するという直感的な考え方とも一致しています。焦点は、データ ユーティリティ パラメータ b にあります。
次のステップは、再利用されるデータの有用性です。
数学的には、k+1 回観察されたサンプルの効用パラメータ b は次のように定義されます:
ここで、τ は効用パラメータの半減期です。 τ の値が大きいほど、繰り返しによるサンプルの有用性の減衰が遅くなります。 δ は、繰り返しによる効用の減衰を簡潔に記述する方法です。次に、n 個のサンプルを確認し、各サンプルを k 回確認した後のモデルの損失の式は次のようになります。
ここで、n_j はトレーニング エポックの j 回目のラウンドの終了時のモデルです。サンプルが見られました。この方程式は、新しく提案された拡大則の基礎です。
最後に、異種ネットワーク データという別の複雑な層があります。
そして、私たちは彼らが与えた定理を得ました。ランダムかつ均一にサンプリングされた p 個のデータプールが与えられた場合、それぞれの効用と反復パラメーターは (b_1, τ_1)...(b_p, τ_p) であり、それぞれの新しい反復半減期はバケットの τ^ = p·τ です。さらに、k回目の反復における結合データプールの実効利用価値b_effは、個々の利用価値の加重平均である。その数学的形式は次のとおりです:
ここで、、これは新しいバケットごとの減衰パラメータです。
最後に、上記の定理の b_eff を式 (3) で使用して、データ プールの組み合わせでトレーニングするときの損失を推定できます。
さまざまなデータユーティリティプールの拡張曲線のフィッティング
チームは、新しく提案された拡張則を実験的に調査しました。
図 4 は、フィッティング後のさまざまなデータ ユーティリティ プールの拡大曲線を示しています。使用されるデータ ユーティリティ インデックスは T-MARS スコアです。
図 4 の列 2 は、エポックが増加するにつれて各データ プールの有用性が減少することを示しています。チームからの主な観察結果は次のとおりです:
1. ネットワーク データは異種であり、単一の拡張パラメーター セットではモデル化できません。
2. データプールが異なれば、データの多様性も異なります。
3. 現象が繰り返される高品質データの効果は、低品質データの直接使用に追いつきません。
結果: QQT に基づくデータの組み合わせの展開則の推定
対応するパラメーター a、b、d、τ は、さまざまな品質のデータ プールに対して事前に推論されています。ここでの目標は、トレーニングのコンピューティング予算を考慮して、最も効率的なデータ ラングリング戦略は何かを判断することです。
前の定理と各データ プールの拡張パラメーターを通じて、さまざまなプールの組み合わせの拡張則を推定できるようになりました。たとえば、上位 20% プールは、上位 10% プールと上位 10% ~ 20% プールの組み合わせと考えることができます。展開曲線からのこの傾向を使用して、特定の計算予算に対するパレート最適データ フィルタリング戦略を予測できます。
図 5 は、ImageNet で評価されたさまざまなデータの組み合わせの展開曲線を示しています。
ここで強調しておく必要があるのは、これらの曲線は上記の定理に基づいて各コンポーネント プールの展開パラメーターから直接推定されるということです。彼らは、これらの展開曲線を推定するために、これらのデータ プールの組み合わせでトレーニングを行っていません。散布点は実際のテストのパフォーマンスであり、推定結果を検証するのに役立ちます。
以下のことがわかります: (1) 計算予算が低い/繰り返し回数が少ない場合には、積極的なフィルタリング戦略が最適です。
(2) 計算なしではデータの編集はできません。
拡張曲線を拡張する
2023 年に、Cherti らの論文「対照的言語イメージ学習のための再現可能なスケーリング則」では、CLIP モデルに提案された拡張則を研究しました。計算 3B から 34B のトレーニング サンプルまでのサイズのモデルが数十あり、モデルはさまざまな ViT シリーズ モデルをカバーします。この計算規模でモデルをトレーニングするには、非常にコストがかかります。 Cherti et al. (2023) は、このファミリーのモデルに拡張則を当てはめることを目的としていましたが、小さなデータセットでトレーニングされたモデルの拡張曲線には多くのエラーがありました。
CMU チームは、これは主に、データの再利用によって生じる有用性の低下を考慮していなかったことが原因であると考えています。そこで彼らは、新しく提案された拡張則を使用してこれらのモデルの誤差を推定しました。
図6は修正後の展開曲線であり、高精度に誤差を予測できます。
これは、新しく提案された拡張則が 34B データ計算でトレーニングされた大規模なモデルに適していることを示しており、モデルのトレーニング結果を予測する際に、新しい拡張則が繰り返しデータの有用性の低下を実際に考慮できることを示しています。 。
技術的な詳細と実験結果については、元の論文を参照してください。
以上がデータは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換:さまざまなスタイルのグラフが利用可能:より詳細な文字認識や位置決めも簡単に対応:文書理解の詳しい説明も可能:ご存知「文書理解」 「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。
