データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます-AI-php.cn

特定のコンピューティング予算の下でのデータフィルタリング

データフィルタリングの展開則

さまざまなデータユーティリティプールの拡張曲線のフィッティング

結果: QQT に基づくデータの組み合わせの展開則の推定

ホームページ

テクノロジー周辺機器

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 01, 2024 pm 10:09 PM

データ電車

基本モデルのスケーリングとは、事前トレーニングにより多くのデータ、計算、パラメーターを使用することを指します。これは単に「スケール拡張」です。

モデルのサイズを直接拡張するのは単純で粗雑なように見えますが、実際に多くの優れたモデルを機械学習コミュニティにもたらしました。これまでの多くの研究では、神経経済モデルの規模を拡大すると、いわゆる量的変化が質的変化を引き起こすことが認識されています。この考え方は、ニューラルスケーリング則としても知られています。ただし、モデルのサイズが大きくなると、コンピューティングリソースが集中的に消費されます。これは、モデルが大きくなると、プロセッサやメモリなど、より多くのコンピューティングリソースが必要になることを意味します。これは、多くの実際のアプリケーション、特にリソースに制約のあるデバイスでは実現できません。したがって、研究者は、モデルを改善するためにコンピューティングリソースをより効率的に使用する方法に焦点を当て始めています。LLM であっても、VLM であっても、普及モデルである現在の最良のクローズドソースモデルの鍵は「データ」であると多くの人が考えています。。データ品質の重要性が認識されるにつれ、大規模なデータベースから高品質のデータをフィルタリングするか、高品質の新しいデータを生成するなど、データ品質の向上を目的とした多くの研究が行われています。しかし、これまでの拡大法は一般に「データ」を同質な存在として捉え、最近注目されている「データの品質」を考慮次元としていませんでした。

ウェブ上のデータモデルは膨大であるにもかかわらず、高品質のデータ (複数の評価指標に基づく) は限られていることがよくあります。今、画期的な研究が行われています - データフィルタリングの次元における拡張則です。これはカーネギーメロン大学とボッシュ AI センターによるもので、「大規模」と「高品質」の間の量と質のトレードオフ (QQT) に特に焦点を当てています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

論文のタイトル: データフィルタリングのスケーリングの法則—データキュレーションはコンピューティングに依存しない

論文のアドレス: https://arxiv.org/pdf/2404.07177。 PDF
コードアドレス: https://github.com/locuslab/scaling_laws_data_filtering

図1に示すように、複数のエポックをトレーニングする場合、高品質のデータのユーティリティ(ユーティリティ) ) は大きくありません (モデルが学習を完了しているため)。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます現時点では、多くの場合、高品質のデータを再利用するよりも、低品質のデータ (最初は実用性が低い) を使用する方が役立ちます。

量と質のトレードオフ (QQT) の下で、どのような種類のデータの組み合わせがトレーニングに適しているかをどのように判断すればよいでしょうか?

この質問に答えるには、データキュレーションワークフローでは、モデルのトレーニングに使用される合計計算量を考慮する必要があります。これは、データフィルタリングに関するコミュニティの見解とは異なります。たとえば、LAION フィルタリング戦略は、一般的なクロール結果から最高品質の 10% を抽出します。

しかし、図 2 からわかるように、トレーニングが 35 エポックを超えると、完全に組織化されていないデータセットでのトレーニングの効果は、LAION 戦略を使用して組織化された高品質のデータでのトレーニングよりも優れていることは明らかです。

現在の神経拡張法則では、この質と量の間の動的なトレードオフをモデル化できません。さらに、視覚言語モデルの拡張に関する研究はさらに少なく、現在の研究のほとんどは言語モデリングの分野に限定されています。データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

今日紹介する画期的な研究は、以前のニューラル拡張の法則の 3 つの重要な制限を克服し、それを実現しました。

(1) データを拡張するときに「品質」軸を考慮する

(2) データプールの組み合わせの拡張則を推定します (組み合わせについて実際にトレーニングすることはありません)。これは、最適なデータ統合の決定に役立ちます。

(3) LLM 拡張則を調整します。これにより、対比に適します。トレーニング (CLIP など)。各バッチには平方数の比較があります。

チームは、異種かつ限られた量のネットワークデータに対する拡張則を初めて提案しました。

大規模なモデルは、さまざまな品質のデータプールの組み合わせでトレーニングされます。個々のデータプールの拡散パラメーター (図 1 (a) の A ～ F) から導出される集約データユーティリティをモデル化することにより、これらのデータプールの任意の組み合わせでモデルのパフォーマンスを直接推定することができます。

この方法では、展開則を推定するためにこれらのデータプールの組み合わせに関するトレーニングを必要とせず、各コンポーネントプールの展開パラメータに基づいて展開曲線を直接推定できることを指摘することが重要です。

過去の拡張則と比較すると、ここでの拡張則にはいくつかの重要な違いがあり、トレーニングメカニズムの繰り返しをモデル化して比較し、O (n²) の比較を実現できます。たとえば、トレーニングプールのサイズが 2 倍になると、モデルの損失に寄与する比較の数は 4 倍になります。

これらは、異なるプールのデータがどのように相互作用するかを数学的に記述し、データの異なる組み合わせの下でモデルのパフォーマンスを推定できるようにします。これにより、現在利用可能な計算に適したデータ編成戦略が得られます。

この研究からの重要なメッセージは次のとおりです: データの編集は計算なしでは行えません。

図 1 の低い計算量での積極的なフィルタリング (E) の最高のパフォーマンスに示されているように、計算予算が小さい (繰り返しが少ない) 場合、QQT のトレードオフの下で品質が優先されます。

一方で、使用する学習データをはるかに超える計算規模になると、限られた良質なデータの有用性が低下するため、それを補う工夫が必要になります。これにより、フィルタリング戦略があまり積極的ではなくなり、データ量が増えてもパフォーマンスが向上します。

チームは、異種ネットワークデータに対するこの新しいスケーリング則が、DataComp の中規模プール (1 億 2,800 万サンプル) 最適フィルタリング戦略を使用して、3,200 万から 6 億 4,000 万のさまざまなコンピューティング予算の下でパレートを予測できることを示す実験デモンストレーションを実施しました。

特定のコンピューティング予算の下でのデータフィルタリング

チームは、実験を通じて、さまざまなコンピューティング予算の下でのデータフィルタリングの効果を研究しました。

彼らは、大規模な初期データプールを使用して VLM をトレーニングしました。フィルタリングされていない基本データプールには、最近のデータコンパイルベンチマークである Datacomp の「中規模」バージョンを選択しました。データプールには 1 億 2,800 万のサンプルが含まれています。彼らは 18 の異なるダウンストリームタスクを使用して、モデルのゼロショットパフォーマンスを評価しました。

彼らはまず、LAION データセットを取得するために使用される LAION フィルタリング戦略を研究しました。その結果を図 2 に示します。彼らは次の結果を観察しました:

1. 計算予算が低い場合は、高品質のデータを使用する方が良いです。

2. コンピューティング予算が高い場合、データフィルタリングが障害を引き起こす可能性があります。

なぜですか？

LAION フィルタリングはデータの約 10% を保持するため、計算予算は約 4 億 5000 万で、フィルタリングされた LAION プールの各サンプルは約 32 回使用されます。ここで重要な洞察は、トレーニング中に同じサンプルが複数回見られる場合、そのたびに効用が減少するということです。

チームはその後、他の 2 つのデータフィルタリング方法を研究しました:

(1) CLIP L/14 モデルを使用した CLIP スコアフィルタリング

(2) マスキング後の T-MARS データはランク付けされます。画像内のテキスト特徴後の CLIP スコア (OCR) に基づきます。データフィルタリング手法ごとに、4 つのフィルタリングレベルとさまざまな合計計算量を使用しました。

図 3 は、計算規模が 32M、128M、および 640M の場合の上位 10 ～ 20%、上位 30%、および上位 40% の CLIP フィルタリングの結果の比較を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

3,200 万のコンピューティングスケールでは、非常に積極的なフィルタリング戦略 (CLIP スコアに基づいて上位 10 ～ 20% のみを保持) が最良の結果をもたらしましたが、上位 40% を保持する最も積極的でないフィルタリング方法では、最高の違い。しかし、計算規模が6億4000万まで拡大すると、この傾向は完全に逆転します。 T-MARS スコア指標を使用しても同様の傾向が観察されます。

データフィルタリングの展開則

チームは最初に効用を数学的に定義しました。

彼らのアプローチは、トレーニング終了時の n 個のサンプルの損失を推定することではなく、トレーニング段階中の任意の時点でのサンプルの瞬間的な有用性を考慮することです。数式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

これは、サンプルの瞬間的な有用性が現在の損失に正比例し、これまでに確認されたサンプルの数に反比例することを示しています。これは、モデルによって認識されるサンプルの数が増加するにつれて、サンプルの有効性が低下するという直感的な考え方とも一致しています。焦点は、データユーティリティパラメータ b にあります。

次のステップは、再利用されるデータの有用性です。

数学的には、k+1 回観察されたサンプルの効用パラメータ b は次のように定義されます:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、τ は効用パラメータの半減期です。 τ の値が大きいほど、繰り返しによるサンプルの有用性の減衰が遅くなります。 δ は、繰り返しによる効用の減衰を簡潔に記述する方法です。次に、n 個のサンプルを確認し、各サンプルを k 回確認した後のモデルの損失の式は次のようになります。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、n_j はトレーニングエポックの j 回目のラウンドの終了時のモデルです。サンプルが見られました。この方程式は、新しく提案された拡大則の基礎です。

最後に、異種ネットワークデータという別の複雑な層があります。

そして、私たちは彼らが与えた定理を得ました。ランダムかつ均一にサンプリングされた p 個のデータプールが与えられた場合、それぞれの効用と反復パラメーターは (b_1, τ_1)...(b_p, τ_p) であり、それぞれの新しい反復半減期はバケットの τ＾ = p·τ です。さらに、ｋ回目の反復における結合データプールの実効利用価値ｂ＿ｅｆｆは、個々の利用価値の加重平均である。その数学的形式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます、これは新しいバケットごとの減衰パラメータです。

最後に、上記の定理の b_eff を式 (3) で使用して、データプールの組み合わせでトレーニングするときの損失を推定できます。

さまざまなデータユーティリティプールの拡張曲線のフィッティング

チームは、新しく提案された拡張則を実験的に調査しました。

図 4 は、フィッティング後のさまざまなデータユーティリティプールの拡大曲線を示しています。使用されるデータユーティリティインデックスは T-MARS スコアです。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

図 4 の列 2 は、エポックが増加するにつれて各データプールの有用性が減少することを示しています。チームからの主な観察結果は次のとおりです:

1. ネットワークデータは異種であり、単一の拡張パラメーターセットではモデル化できません。

2. データプールが異なれば、データの多様性も異なります。

3. 現象が繰り返される高品質データの効果は、低品質データの直接使用に追いつきません。

結果: QQT に基づくデータの組み合わせの展開則の推定

対応するパラメーター a、b、d、τ は、さまざまな品質のデータプールに対して事前に推論されています。ここでの目標は、トレーニングのコンピューティング予算を考慮して、最も効率的なデータラングリング戦略は何かを判断することです。

前の定理と各データプールの拡張パラメーターを通じて、さまざまなプールの組み合わせの拡張則を推定できるようになりました。たとえば、上位 20% プールは、上位 10% プールと上位 10% ～ 20% プールの組み合わせと考えることができます。展開曲線からのこの傾向を使用して、特定の計算予算に対するパレート最適データフィルタリング戦略を予測できます。

図 5 は、ImageNet で評価されたさまざまなデータの組み合わせの展開曲線を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで強調しておく必要があるのは、これらの曲線は上記の定理に基づいて各コンポーネントプールの展開パラメーターから直接推定されるということです。彼らは、これらの展開曲線を推定するために、これらのデータプールの組み合わせでトレーニングを行っていません。散布点は実際のテストのパフォーマンスであり、推定結果を検証するのに役立ちます。

以下のことがわかります: (1) 計算予算が低い/繰り返し回数が少ない場合には、積極的なフィルタリング戦略が最適です。

(2) 計算なしではデータの編集はできません。

拡張曲線を拡張する

2023 年に、Cherti らの論文「対照的言語イメージ学習のための再現可能なスケーリング則」では、CLIP モデルに提案された拡張則を研究しました。計算 3B から 34B のトレーニングサンプルまでのサイズのモデルが数十あり、モデルはさまざまな ViT シリーズモデルをカバーします。この計算規模でモデルをトレーニングするには、非常にコストがかかります。 Cherti et al. (2023) は、このファミリーのモデルに拡張則を当てはめることを目的としていましたが、小さなデータセットでトレーニングされたモデルの拡張曲線には多くのエラーがありました。

CMU チームは、これは主に、データの再利用によって生じる有用性の低下を考慮していなかったことが原因であると考えています。そこで彼らは、新しく提案された拡張則を使用してこれらのモデルの誤差を推定しました。

図6は修正後の展開曲線であり、高精度に誤差を予測できます。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

これは、新しく提案された拡張則が 34B データ計算でトレーニングされた大規模なモデルに適していることを示しており、モデルのトレーニング結果を予測する際に、新しい拡張則が繰り返しデータの有用性の低下を実際に考慮できることを示しています。。

技術的な詳細と実験結果については、元の論文を参照してください。

以上がデータは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1664

CakePHP チュートリアル

1422

Laravel チュートリアル

1316

PHP チュートリアル

1267

C# チュートリアル

1239

Related knowledge

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何？ズートピアは国産AIによって実現するのか？ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

Alibaba 7B マルチモーダル文書理解の大規模モデルが新しい SOTA を獲得 Apr 02, 2024 am 11:31 AM

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換：さまざまなスタイルのグラフが利用可能：より詳細な文字認識や位置決めも簡単に対応：文書理解の詳しい説明も可能：ご存知「文書理解」「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。

See all articles

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

特定のコンピューティング予算の下でのデータ フィルタリング

データフィルタリングの展開則

さまざまなデータユーティリティプールの拡張曲線のフィッティング

結果: QQT に基づくデータの組み合わせの展開則の推定

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

特定のコンピューティング予算の下でのデータフィルタリング