画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる
大規模言語モデル (LLM または LM) は、もともと言語を生成するために使用されていましたが、時間が経つにつれて、複数のモダリティでコンテンツを生成できるようになり、オーディオ、音声、コード生成、医療アプリケーションなどでの用途が発見されました。 , ロボット工学などの分野が主流になり始めています
もちろん、LM は画像やビデオを生成することもできます。このプロセス中に、画像ピクセルはビジュアル トークナイザーによって一連の個別のトークンにマッピングされます。これらのトークンは LM トランスフォーマーに供給され、生成モデリングの語彙のように使用されます。ビジュアル生成は大幅に進歩したにもかかわらず、LM のパフォーマンスは依然として拡散モデルより劣ります。たとえば、画像生成のゴールドスタンダードベンチマークである ImageNet データセットで評価した場合、最良の言語モデルのパフォーマンスは拡散モデルよりも 48% も悪かった (256 ^ 256 解像度で画像を生成する場合の FID 3.41 対 1.79)。
なぜ言語モデルはビジュアル生成において普及モデルに後れを取っているのでしょうか? Google と CMU の研究者らは、主な理由は、視覚世界を効果的にモデル化するための自然言語システムと同様の、優れた視覚表現が欠如していることであると考えています。この仮説を確認するために、彼らは研究を実施しました。
論文リンク: https://arxiv.org/pdf/2310.05737.pdf
これこの調査では、同じトレーニング データ、同等のモデル サイズ、トレーニング予算を使用し、優れたビジュアル トークナイザーを使用すると、画像とビデオのベンチマークにおける生成忠実度と効率の両方において、マスクされた言語モデルが SOTA 拡散モデルを上回ることが示されました。これは、象徴的な ImageNet ベンチマークにおいて、言語モデルが普及モデルを上回ることを示す最初の証拠です。
研究者の目的は、言語モデルが他のモデルより優れているかどうかを主張することではなく、LLM 視覚的トークン化手法の探求を促進することであることを強調しておく必要があります。 LLM と他のモデル (拡散モデルなど) の基本的な違いは、LLM が離散潜在形式、つまり視覚的なトークナイザーから取得されたトークンを使用することです。この研究は、これらの個別のビジュアル トークンの価値は、次の利点があるため無視すべきではないことを示しています:
1. LLM との互換性。トークン表現の主な利点は、言語トークンと同じ形式を共有することで、コミュニティが長年にわたって LLM を開発するために行ってきた最適化 (トレーニングと推論の高速化、モデル インフラストラクチャの進歩、拡張方法など) を直接活用できることです。モデル、および GPU/TPU 最適化などのイノベーション。同じトークン空間を通じて視覚と言語を統合することで、私たちの視覚環境内で理解、生成、推論できる真のマルチモーダル LLM の基礎を築くことができます。
2. 圧縮表現。個別のトークンは、ビデオ圧縮に関する新しい視点を提供できます。ビジュアル トークンは、インターネット送信中にデータが占有するディスク ストレージと帯域幅を削減するための新しいビデオ圧縮形式として使用できます。圧縮された RGB ピクセルとは異なり、これらのトークンは、従来の解凍および潜在的なエンコードのステップをバイパスして、生成モデルに直接入力できます。これにより、ビデオ生成アプリケーションの処理が高速化され、特にエッジ コンピューティングの状況で有益です。
3. 視覚的に理解できる利点。 BEiT と BEVT で議論されているように、これまでの研究では、自己教師あり表現学習における事前トレーニング ターゲットとしての離散ラベルの価値が示されています。さらに、この研究では、マーカーをモデル入力として使用すると、堅牢性と汎化パフォーマンスが向上することがわかりました。
この論文では、研究者らは、MAGVIT-v2 と呼ばれるモデルを提案しました。ビデオ (および画像) をコンパクトな離散トークンに変換します
このコンテンツは次のように書き直されます: このモデルは、VQ-VAE フレームワーク内の SOTA ビデオ トークナイザーに基づいています ——MAGVIT による改良。研究者らは 2 つの新しいテクノロジーを提案しました: 1) 大量の語彙の学習を可能にし、それによって言語モデル生成の品質を向上させる革新的なルックアップ不要の定量化方法; 2) 広範な実証分析を通じて、生成品質を向上させるだけでなく MAGVIT への修正を決定しました
実験結果は、新しいモデルが 3 つの主要な領域で優れていることを示しています。これまでで最高のパフォーマンスを示したビデオ トークナイザー - MAGVIT。まず、新しいモデルは MAGVIT の生成品質を大幅に向上させ、一般的な画像とビデオのベンチマークで最先端の結果を達成します。第 2 に、ユーザー調査によると、その圧縮品質は MAGVIT および現在のビデオ圧縮標準 HEVC を超えています。さらに、次世代ビデオコーデックVVCにも匹敵します。最後に、研究者らは、2 つの設定と 3 つのデータセットにおけるビデオ理解タスクにおいて、新しい単語セグメンテーションが MAGVIT よりも優れたパフォーマンスを発揮することを示しました。 この論文では、ビジュアル シーンの時空間ダイナミクスを言語モデルに適したコンパクトな離散トークンにマッピングすることを目的とした、新しいビデオ トークナイザーを紹介します。さらに、このメソッドは MAGVIT に基づいています。 調査では、ルックアップフリー量子化 (LFQ) とトークナイザー モデルの機能強化という 2 つの新しい設計に焦点を当てています。 ルックアップ不要の定量化 最近、VQ-VAE モデルは大きな進歩を遂げましたが、この方法の問題点 問題は、再構成品質の向上とその後の生成品質の関係が不明瞭であることです。多くの人は、再構成の改善は言語モデル生成の改善と同等であると誤解しています。たとえば、語彙を増やすと再構成の品質が向上します。ただし、この改善は語彙が少ない生成にのみ適用され、語彙が非常に大きい場合、言語モデルのパフォーマンスに悪影響を及ぼします。 この記事では、VQ-VAE コードブックを削減します。埋め込み次元を 0 にします。つまり、コードブック VQ-VAE モデルとは異なり、この新しい設計では埋め込みルックアップの必要性が完全に排除されているため、LFQ という名前が付けられています。この論文では、LFQ が語彙を増やすことで言語モデル生成の品質を向上できることを発見しました。図 1 の青い曲線で示されているように、語彙サイズが増加するにつれて再構成と生成の両方が向上します。これは現在の VQ-VAE 方法では観察されない特性です。 これまでに多くの LFQ メソッドが利用可能ですが、この記事では単純なバリエーションについて説明します。具体的には、LFQ の潜在空間は、一次元変数のデカルト積、つまり LFQ に関しては、 q ( z のトークン インデックス) は次のとおりです: # さらに、この記事では、トレーニング プロセス中にエントロピー ペナルティも追加します: 画像とビデオを組み合わせたトークナイザーを構築するには、再設計が必要です。この研究では、空間変換器と比較して 3D CNN のパフォーマンスが優れていることが判明しました。 この論文では、図 2b に示すように、C-ViViT と MAGVIT を組み合わせた 2 つの実現可能な設計ソリューションを検討します。 ; 図 2c は、通常の 3D CNN の代わりに時間的因果関係 3D 畳み込みを使用します。 表 5a は、図 2 の設計を経験的に比較しており、因果関係のある 3D CNN が最も優れたパフォーマンスを発揮することがわかります。 この記事では、MAGVIT のパフォーマンスを向上させるために他のアーキテクチャの変更を加えます。この論文では、因果 3D CNN レイヤーの使用に加えて、エンコーダーのダウンサンプラーを平均プーリングからストライド畳み込みに変更し、デコーダーの各解像度で残差ブロックの前に適応グループ正規化を追加しています。 実験結果
#以下は、図 4 の定性サンプルの説明です
## この研究では、MAGVIT-v2 の画像生成結果を評価することにより、標準的な ImageNet のような条件設定の下で、サンプリング品質 (ID および IS) と推論時間効率 (サンプリング ステップ) の点で、私たちのモデルが最高を上回っていることがわかりました。最良の拡散モデルのパフォーマンス
# 図 5 は、視覚化の結果を示しています。 #ビデオ圧縮。結果を表 3 に示します。私たちのモデルは、すべての指標で MAGVIT を上回り、LPIPS ではすべてのメソッドを上回っています。 #表 4 に示すように、これらの評価では、MAGVIT-v2 は以前の最高の MAGVIT ## を上回っています 手法の紹介
が整数セット
に置き換えられます。ここで、
です。
に分解されます。特徴ベクトル
が与えられたと仮定すると、量化表現 q (z) の各次元は次から取得されます。
ビジュアル トークナイザー モデルの改善
この論文では、ビデオと画像の生成、ビデオ圧縮、およびアクション認識の 3 つの部分の実験を通じて、提案された単語セグメンターのパフォーマンスを検証します。図 3 は、トークナイザーと以前の研究結果
ビデオ生成の結果を視覚的に比較しています。表 1 は、両方のベンチマークでこのモデルが既存のすべての手法を上回っていることを示しており、優れたビジュアル トークナイザーが LM が高品質のビデオを生成できるようにする上で重要な役割を果たしていることを示しています。
以上が画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。
