Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります-AI-php.cn

生成モデルからの学習

OpenAI の CLIP と比較可能

ホームページ

テクノロジー周辺機器

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 14, 2024 pm 08:30 PM

データ電車

現在の大規模モデルのトレーニングでは、高品質のデータを取得することが大きなボトルネックになっています。

数日前、OpenAI はニューヨークタイムズ紙から訴訟を起こされ、数十億ドルの賠償を求められました。訴状にはGPT-4による盗作の複数の証拠が列挙されている。

ニューヨーク・タイムズでさえ、GPTなどのほとんどすべての大型モデルの破壊を要求しました。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

AI 業界の多くの大手企業は、「合成データ」がこの問題に対する最良の解決策である可能性があると長い間信じてきました。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

# 以前、Google チームは、LLM を使用して人間のラベル設定を置き換える方法である RLAIF も提案しましたが、その効果はそれよりも劣りません。人間。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

Google と MIT の研究者は、大規模なモデルから学習することで、実際のデータを使用してトレーニングされた最適なモデルを表現できることを発見しました。

この最新の方法は SynCLR と呼ばれ、実際のデータを一切使用せずに、合成画像と合成記述から完全に仮想表現を学習する方法です。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

論文アドレス: https://arxiv.org/abs/2312.17742

実験結果SynCLR メソッドを通じて学習された表現は、ImageNet 上の OpenAI の CLIP の送信効果と同じくらい優れていることがわかります。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

生成モデルからの学習

現在、最もパフォーマンスの高い「視覚的表現」学習方法は、大規模な実際のデータセットに依存しています。しかし、実際のデータを収集するには多くの困難があります。

データ収集コストを削減するために、この記事の研究者は次のような質問を投げかけます:

既製のものからサンプリングする生成モデル合成データは、最先端の視覚表現をトレーニングするために大規模なデータセットをキュレーションするための実行可能な手段でしょうか?

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

データから直接学習するのとは異なり、Google 研究者はこのモデルを「モデルからの学習」と呼んでいます。大規模なトレーニングセットを構築するためのデータソースとして、モデルにはいくつかの利点があります。

- 潜在変数、条件変数、ハイパーパラメーターを通じてデータ管理のための新しい制御方法を提供します。

- モデルは共有や保存も簡単で (モデルはデータよりも圧縮しやすいため)、無制限の数のデータサンプルを生成できます。

下流モデルをトレーニングするためのデータソースとしての生成モデルのこれらの特性やその他の利点と欠点を検討する文献が増えています。

これらの方法の一部は、ハイブリッドモデルを採用しています。つまり、実際のデータセットと合成データセットを混合するか、別の合成データセットを生成するために 1 つの実際のデータセットを必要とします。

他の方法は純粋に「合成データ」から表現を学習しようとしますが、最高のパフォーマンスを発揮するモデルには大きく遅れをとります。

論文では、研究者によって提案された最新の方法では、生成モデルを使用して視覚化クラスの粒度を再定義しています。

図 2 に示すように、2 つのヒントを使用して 4 つの写真が生成されました。「サングラスとビーチハットをかぶって自転車に乗っているゴールデンレトリバー」と「かわいいゴールデンレトリバー」です。お寿司でできた家で」。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

従来の自己教師ありメソッド (Sim-CLR など) は、これらのイメージを異なるクラスとして扱い、イメージ間の共有セマンティクスを明示的に考慮せずに、異なるイメージの埋め込みを分離します。

もう一方の極端な場合、教師あり学習方法 (つまり SupCE) は、これらすべての画像を 1 つのクラス (「ゴールデンレトリバー」など) として扱います。これは、ある画像では自転車に乗っている犬、別の画像では寿司屋に座っている犬など、画像の意味上のニュアンスを無視しています。

対照的に、SynCLR アプローチは説明をクラス、つまり説明ごとに 1 つのビジュアルクラスとして扱います。

このように、「自転車に乗っている」と「寿司屋に座っている」という 2 つのコンセプトに従って写真をグループ化できます。

この種の粒度を実際のデータでマイニングすることは困難です。これは、特定の説明によって複数の画像を収集するのが簡単ではないためです。特に説明の数が増加した場合にはそうであるからです。

ただし、テキストから画像への拡散モデルには基本的にこの機能があります。

同じ説明に基づいて条件付けし、異なるノイズ入力を使用するだけで、テキストから画像への拡散モデルは、同じ説明に一致する異なる画像を生成できます。

具体的には、著者らは実際の画像やテキストデータを使用せずにビジュアルエンコーダを学習する問題を研究しています。

最新の手法は、言語生成モデル (g1)、テキストから画像への生成モデル (g2)、視覚的概念の精選されたリストという 3 つの主要なリソースの利用に依存しています。 (c)。

前処理には 3 つのステップが含まれます:

(1) (g1) を使用して、包括的な画像記述 T のセットを合成します。 C のさまざまな視覚的概念;

#(2) T のタイトルごとに、(g2) を使用して複数の画像を生成し、最終的に広範な合成画像データセット X を生成します。 #(3) X をトレーニングして視覚表現エンコーダー f を取得します。

次に、推論速度が速い llama-27b を (g1) として、Stable Diffusion 1.5 を (g2) として使用します。

合成説明

強力なテキストから画像へのモデルの力を利用して大量のデータを生成するためトレーニング画像データセットを使用するには、まず、画像を正確に記述するだけでなく、広範囲の視覚概念を包含する多様性を示す一連の記述が必要です。

これに応えて、著者らは、大規模モデルのコンテキスト学習機能を活用して、このような大規模な記述セットを作成するためのスケーラブルな方法を開発しました。

次に、合成テンプレートの 3 つの例を示します。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります次は、Llama-2 を使用して生成されたコンテキストの説明です。研究者は、推論の実行ごとに 3 つのコンテキストの例をランダムにサンプリングしました。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります #合成画像

各テキストの説明について、研究者-拡散プロセスはさまざまなランダムノイズで開始され、さまざまな画像が生成されます。

このプロセスでは、分類子を使用しないブートストラップ (CFG) 比率が重要な要素となります。

CFG スケールが高いほど、サンプルの品質とテキストと画像の間の一貫性が向上します。一方、スケールが低いほど、サンプルの多様性は大きくなります。指定されたテキストに基づいた画像の元の条件付き分布に近づきます。

#表現学習 Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

論文では、表現学習方法は次のとおりです。に基づく StableRep に基づく

著者らによって提案された方法の重要なコンポーネントは、同じ記述から生成された画像を (埋め込み空間内で) 整列させることによって機能するマルチポジティブコントラスト学習損失です。

さらに、他の自己教師あり学習法のさまざまなテクニックも研究で組み合わせられました。

OpenAI の CLIP と比較可能

実験的評価では、研究者らはまずアブレーション研究を実施してパイプライン内のさまざまな設計とモジュールの有効性を評価し、その後合成量を拡大し続けました。データ。

次の図は、さまざまな記述合成戦略の比較です。

研究者らは、9 つのきめ細かいデータセットに関する ImageNet の線形評価精度と平均精度を報告しています。ここの各アイテムには 1,000 万件の説明と、説明ごとに 4 枚の写真が含まれています。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

#次の表は、ImageNet の線形評価と詳細な分類の比較です。

SynCLR は、合成データのみを使用しているにもかかわらず、OpenAI の CLIP および DINO v2 モデルと同等の結果を達成しました。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

次の表では、同じ合成データに対する SynCLR と CLIP を比較しています。SynCLR が CLIP よりも大幅に優れていることがわかります。

具体的な設定は、タイトルごとに 4 つの画像を生成することです。SynCaps-150M は、SynCLR と CLIP の表現を向上させます。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

#PCA の視覚化は次のとおりです。 DINO v2 に続いて、研究者らは同じ画像セットのパッチ間の PCA を計算し、最初の 3 つのコンポーネントに基づいて色付けしました。

DINO v2 と比較すると、SynCLR は車や飛行機の描画の精度が高くなりますが、描画可能な描画の精度は若干劣ります。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります # 図 6 と図 7 は、それぞれ、異なるトレーニングスケールでの ImageNet の線形精度と、異なるトレーニングパラメータースケールでの詳細な分類を示しています。

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となりますなぜ生成モデルから学ぶのでしょうか?

説得力のある理由の 1 つは、生成モデルは数百のデータセットを同時に操作でき、トレーニングデータを厳選する便利で効率的な方法を提供することです。

要約すると、最新の論文は、視覚表現学習の新しいパラダイム、つまり生成モデルからの学習を調査しています。

SynCLR は、実際のデータを一切使用せずに、最先端の汎用視覚表現学習器によって学習される視覚表現と同等の視覚表現を学習します。

以上がGoogle MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7454

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何？ズートピアは国産AIによって実現するのか？ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles

Google MIT の最新調査によると、高品質のデータを取得するのは難しくなく、大規模なモデルが解決策となります

生成モデルからの学習

OpenAI の CLIP と比較可能

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック