低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表-AI-php.cn

ホームページ

テクノロジー周辺機器

低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2024 pm 07:40 PM

git 理論マルチモーダル融合

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

マルチモーダルフュージョンは、マルチモーダルインテリジェンスの基本タスクの 1 つです。

マルチモーダルフュージョンの動機は、さまざまなモダリティからの有効な情報を共同利用して、下流タスクの精度と安定性を向上させることです。従来のマルチモーダル融合手法は高品質のデータに依存することが多く、実際のアプリケーションで複雑で低品質のマルチモーダルデータに適応するのは困難です。

天津大学、中国人民大学、シンガポール科学技術研究庁、四川大学、西安大学が共同で発表した低品質マルチモーダルデータ融合のレビュー「Multimodal Fusion on Low-quality」「電子科学技術とハルビン工業大学（深セン）データ：総合調査」では、マルチモーダルデータの融合課題を統一的な観点から紹介し、低品質マルチモーダルデータの既存の融合手法と開発の可能性を整理しています。この分野の方向性。

arXiv リンク:

http://arxiv.org/abs/2404.18947

awesome-list リンク:

https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning

従来のマルチモーダル融合モデル

人間は、複数のモダリティからの情報を融合することで世界を認識します。

一部のモダリティの信号が信頼できない場合でも、人間にはこれらの低品質のマルチモーダルデータ信号を処理し、環境を認識する能力があります。

マルチモーダル学習は大きく進歩しましたが、マルチモーダル機械学習モデルには、現実世界の低品質のマルチモーダルデータを効果的に融合する機能がまだ不足しています。実際の経験では、従来のマルチモーダル融合モデルのパフォーマンスは、次のシナリオで大幅に低下します:

(1) ノイズの多いマルチモーダルデータ: 一部のモダリティの一部の特徴がノイズによって妨害され、元の情報が失われます。。現実の世界では、未知の環境要因、センサーの故障、伝送中の信号損失によりノイズ干渉が発生し、マルチモーダル融合モデルの信頼性が損なわれる可能性があります。

(2)マルチモーダルデータの欠落: さまざまな実際的な要因により、実際に収集されたマルチモーダルデータサンプルの一部のモダリティが欠落している可能性があります。たとえば、医療分野では、患者のさまざまな生理学的検査結果から構成されるマルチモーダルなデータが重大に欠落している可能性があり、一部の患者は特定の検査を受けたことがない可能性があります。

(3) 不均衡なマルチモーダルデータ: モダリティ間の異種符号化属性と情報品質の違いという矛盾した現象により、モダリティ間の学習の不均衡の問題が発生します。マルチモーダル融合プロセス中、モデルは特定のモダリティに依存しすぎて、他のモダリティに含まれる潜在的に有効な情報を無視する可能性があります。

(4) 動的低品質マルチモーダルデータ: アプリケーション環境の複雑さと変化、異なるサンプル、異なる時間と空間により、モーダル品質は動的に変化する特性を持ちます。低品質のモーダルデータの発生は事前に予測することが困難であることが多く、これがマルチモーダルフュージョンに課題をもたらします。

低品質マルチモーダルデータの性質と処理方法を完全に特徴付けるために、この記事では、低品質マルチモーダル融合の分野における現在の機械学習方法を要約し、開発プロセスを体系的にレビューします。この分野では、さらなる研究が必要な問題がさらに予想されます。

低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表

図 1. 低品質のマルチモーダルデータ分類の概略図。黄色と青は 2 つのモードを表し、色が濃いほど品質が高いことを表します

問題の定義:

。 ノイズは、マルチモーダルデータの品質低下の最も一般的な原因の 1 つです。

この記事では主に 2 種類のノイズに焦点を当てます:

(1)
モード関連のマルチモーダルノイズ

。このタイプのノイズは、センサーエラー (医療診断における機器エラーなど)、環境要因 (自動運転における雨や霧など) などの要因によって発生する可能性があり、ノイズは特定のモード内の特定の機能レベルに限定されます。

(2) 意味レベルでのクロスモーダルノイズ。このタイプのノイズは、モダリティ間の高レベルのセマンティクスの不整合によって発生し、フィーチャレイヤーでのマルチモーダルノイズよりも処理が困難です。幸いなことに、マルチモーダルデータモード間の相補性と情報の冗長性により、ノイズ除去のために複数のモダリティからの情報を組み合わせることが、マルチモーダルフュージョンプロセスにおいて効果的な戦略であることが証明されています。

メソッド分類:

機能レベルのマルチモーダルノイズ除去メソッドは、実際のタスクに含まれる特定のモダリティに大きく依存します。

この記事では、主にマルチモーダル画像融合タスクを例として説明します。マルチモーダル画像フュージョンにおける主流のノイズ除去方法には、重み付けフュージョンとジョイントバリエーションが含まれます。

重み付け融合法特徴ノイズがランダムであり、実データが特定の分布に従うことを考慮して、重み付き加算を通じてノイズの影響を排除します

結合変動法

は、従来の単一変動法を拡張したものです。 -モーダル画像変分ノイズ除去は、ノイズ除去プロセスを最適化問題解決プロセスに変換し、複数のモダリティからの相補的な情報を使用してノイズ除去効果を向上させることができます。セマンティックレベルのクロスモーダルノイズは、位置が弱く、または位置がずれているマルチモーダルサンプルペアから発生します。

たとえば、RGB画像と熱画像を組み合わせるマルチモーダルターゲット検出タスクでは、センサーの違いにより、同じターゲットが両方のモダリティに表示されますが、その正確な位置と姿勢はわずかに異なる場合があります(弱いアライメント）がさまざまなモダリティで発生し、位置情報を正確に推定することが困難になります。

ソーシャルメディアのコンテンツ理解タスクでは、サンプル（Weiboなど）の画像とテキストのモダリティに含まれる意味情報が非常に異なっているか、無関係（完全にずれている）である可能性があり、それがさらに大きな課題をもたらしますマルチモーダル融合へ。クロスモーダルセマンティックノイズに対処する方法には、ルールフィルタリング、モデルフィルタリング、ノイズに強いモデルの正則化などの方法が含まれます。

将来の展望:

データノイズの処理は古典的な機械学習タスクで長い間広く研究されてきましたが、マルチモーダルシナリオでは、モダリティ間の違い、相補性と一貫性をどのように共同利用して、騒音の影響を弱めることは、依然として解決すべき緊急の研究課題です。

さらに、従来の特徴レベルのノイズ除去とは異なり、マルチモーダル大規模モデルの事前トレーニングおよび推論プロセス中に意味レベルのノイズをどのように解決するかは、興味深く、非常に困難な問題です。

️表 1. ノイズのマルチモーダル融合法の分類

マルチモーダルデータ融合メソッドが欠落しています

問題定義:

実際のシナリオ収集されたマルチモーダルデータは、ストレージデバイスの損傷や信頼性の低いデータ送信プロセスなどのさまざまな要因により、必然的にモーダル情報の一部が失われることがよくあります。

例: レコメンデーションシステムでは、ユーザーの閲覧履歴と信用格付けがマルチモーダルデータを構成します。ただし、許可とプライバシーの問題により、ユーザーのすべてのモーダル情報を完全に収集して構築することは不可能な場合があります。マルチモーダルデータ。

医療診断では、一部の病院では設備が限られており、特定の検査の費用が高額であるため、さまざまな患者のマルチモーダル診断データが非常に不完全であることがよくあります。

手法分類:

「欠落マルチモーダルデータの明示的な完了が必要かどうか」という分類原則に従って、欠落マルチモーダルデータ融合手法は次のように分類できます:

(1) 補完ベースのマルチモーダル融合法

補完ベースのマルチモーダル融合法には、欠損モードを 0 値または残差モードで直接埋めるなど、モデルに依存しない補完手法が含まれます。平均;

グラフまたはカーネルに基づく補完メソッド: このタイプのメソッドは、元のマルチモーダルデータを補完する方法を直接学習するのではなく、モダリティごとにグラフまたはカーネルを構築し、類似性または相関関係を学習します。

サンプルペア間の情報を収集し、欠落データを補完します。

元の特徴レベルを直接補完します。一部の方法では、敵対的生成ネットワーク GAN やそのバリアントなどの生成モデルを使用して、欠落している特徴を直接補完します。

(2) 完了のないマルチモーダル融合法。

補完ベースのメソッドとは異なり、補完フリーのメソッドは、欠落していないモダリティに含まれる有用な情報を使用して可能な限り最良の表現を融合する方法に焦点を当てます。このタイプのメソッドは、多くの場合、期待される学習統合表現は制約低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表

を追加し、この表現が観測可能なモーダルデータの完全な情報を反映して、マルチモーダル融合の完了プロセスをバイパスできるようにします。 ️

クラスタリング、分類、その他の古典的な機械学習タスクを解決するために国内外で多くの方法が提案されていますが、まだいくつかの深い課題があります。

例: 欠落しているモーダル補完スキームの補完データの品質評価は、しばしば見落とされます。

さらに、演繹的な欠損データの位置情報を使用して欠落モダリティをマスクする戦略自体は、欠落モダリティによって引き起こされる情報ギャップと情報の不均衡を補うことが困難です。

表 2. 欠損マルチモーダルデータの融合手法の分類

問題定義:

多くのモーダル学習では、通常、共同トレーニングを使用して、さまざまなモダリティからのデータを統合し、全体的なパフォーマンスと汎化パフォーマンスを向上させます。モデル。ただし、統一された学習目標を使用するこのタイプの広く採用されている共同トレーニングパラダイムは、さまざまなモダリティにおけるデータの異質性を無視しています。

一方で、

データソースやフォームの点での異なるモダリティの異種性

により、それらは収束速度などの点で異なる特性を持ち、すべてのモダリティを適切に処理して学習することが困難になります。同時に、マルチモーダル共同学習に困難をもたらします

一方で、この違いは

シングルモーダルデータ

の品質にも反映されています。すべてのモダリティは同じ概念を説明しますが、ターゲットイベントまたはターゲットオブジェクトに関連する情報の量は異なります。最尤学習目標に基づくディープニューラルネットワークは、貪欲な学習特性を備えているため、多くの場合、識別情報が高く学習が容易な高品質のモダリティに依存するマルチモーダルモデルが生成されますが、他のモーダル情報のモデル化は不十分です。

これらの課題に対処し、マルチモーダルモデルの学習の質を向上させるために、

バランスの取れたマルチモーダル学習

に関する関連研究が最近広く注目を集めています。

方法分類:

異なるバランス角度に応じて、関連する方法は

特性の違いに基づく方法

と
品質の違いに基づく方法

に分類できます。

(1) 広く使用されているマルチモーダル共同トレーニングフレームワークは、シングルモーダルデータの学習特性の固有の違いを無視することが多く、モデルのパフォーマンスに悪影響を与える可能性があります。特性の違いに基づく手法は、各モダリティの学習特性の違いから出発し、学習目標、最適化、アーキテクチャの観点からこの問題を解決しようとします。

(2) 最近の研究では、マルチモーダルモデルが他のモダリティを無視しながら

特定の高品質な情報モダリティに大きく依存しており

、その結果、すべてのモダリティの学習が不十分であることがさらに判明しました。品質の違いに基づく方法はこの観点から始まり、この問題を解決し、学習目的、最適化方法、モデルアーキテクチャ、データ強化の観点からマルチモーダルモデルにおけるさまざまなモダリティのバランスのとれた利用を促進しようとします。

表 3. バランスの取れたマルチモーダルデータ融合手法の分類この学習手法は主に、異なるモダリティ間の学習特性やデータ品質の違いをターゲットとしています。これらの手法は、学習目的、最適化手法、モデルアーキテクチャ、データ強化などのさまざまな観点からソリューションを提案します。

バランスの取れたマルチモーダル学習は現在急成長している分野ですが、十分に検討されていない理論的および応用的な方向性が数多くあります。たとえば、現在の方法は主に、ほとんどが識別タスクと少数の生成タスクである典型的なマルチモーダルタスクに限定されています。

さらに、マルチモーダル大規模モデルでは、異なる品質のモーダルデータを組み合わせる必要もあります。これに基づいて、マルチモーダル大規模モデルのシナリオでも既存のモデルを拡張することが期待されます。新しいソリューションを研究または設計します。

動的マルチモーダル融合法

問題定義:

動的マルチモーダルデータ
は、モダリティの品質が入力サンプルによって変化するという事実を指しますおよびシナリオの動的変化。たとえば、自動運転シナリオでは、システムは RGB センサーと赤外線センサーを介して路面とターゲットの情報を取得します。良好な照明条件下では、RGB カメラは豊かなテクスチャと色をキャプチャできるため、インテリジェントシステムの意思決定をより適切にサポートできます。ターゲットの情報;

ただし、光が不十分な夜間では、赤外線センサーによって提供される知覚情報の方が信頼性が高くなります。正確かつ安定した融合を実行するために、モデルがさまざまなモダリティの品質の変化を自動的に認識できるようにする方法は、動的マルチモーダル融合法の中心的なタスクです。表 4. 動的マルチモーダル融合手法の分類

動的マルチモーダル融合手法は、大きく 3 つのカテゴリに分類できます:

(1) ヒューリスティック動的融合手法:

ヒューリスティック動的融合手法この方法は、マルチモーダルモデルのアプリケーションシナリオに対するアルゴリズム設計者の理解に依存しており、一般に、ターゲットを絞った

動的融合メカニズム

を導入することによって実現されます。

たとえば、RGB/熱信号連携のマルチモーダルターゲット検出タスクでは、研究者らは入力画像の照明状況を動的に評価し、RGB と Fusion の重みを動的に調整する照明認識モジュールをヒューリスティックに設計しました。環境適応のための熱モダリティの研究。輝度が高い場合は、RGB モードが主に意思決定に依存し、逆も同様で、主にサーマルモードが意思決定に依存します。

(2) アテンションメカニズムに基づく動的融合手法:

アテンションメカニズムに基づく動的融合手法は、主に

プレゼンテーション層融合
に焦点を当てています。注意メカニズム自体は動的な特性を持っているため、マルチモーダルな動的融合タスクでも自然に使用できます。

自己注意、空間注意、チャネル注意、トランスフォーマーおよびその他のメカニズムは、マルチモーダル融合モデルの構築に広く使用されています。このようなメソッドは、タスクの目標に基づいて、動的融合を実行する方法を自動的に学習します。アテンションメカニズムに基づく融合は、明示的またはヒューリスティックなガイダンスがない場合でも、動的な低品質のマルチモーダルデータにある程度適応できます。

(3) 不確実性を認識した動的融合手法:

不確実性を認識した動的融合手法には、多くの場合、

より明確で説明可能な融合メカニズム
があります。注意メカニズムに基づく複雑な融合モードとは異なり、不確実性を意識した動的融合手法は、モダリティ (証拠、エネルギー、エントロピーなど) の不確実性推定に依存して、低品質のマルチモーダルデータに適応します。

具体的には、不確実性の知覚を使用して、入力データの各モードの品質変化を特徴付けることができます。入力サンプルの特定のモダリティの品質が低くなると、そのモダリティに基づくモデルの意思決定の不確実性が高くなり、その後の融合機構の設計に明確な指針を提供します。さらに、ヒューリスティックやアテンションメカニズムと比較して、不確実性を認識した動的融合手法は優れた理論的保証を提供できます。

将来の展望:

不確実性を意識した動的融合手法の優位性は、従来のマルチモーダル融合タスクでは実験的および理論的に証明されてきましたが、SOTA のマルチモーダルモデルでは、 CLIP/BLIP などの融合モデルに限定されますが、動的なアイデアにも探求と応用の大きな可能性があります。

さらに、理論的な保証を備えた動的融合メカニズムは、多くの場合、意思決定レベルに限定されます。それを表現レベルで機能させる方法も検討し、検討する価値があります。

以上が低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7416

CakePHP チュートリアル

1359

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Grayscale Encryption Trust Fundsとは何ですか？ Mar 05, 2025 pm 12:33 PM

グレイスケール投資：機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment（2013年にDigitalCurrencyGroupによって設立された）で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH（ZEC）、SOL、

Delphi Digital：新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は？ Mar 04, 2025 pm 07:00 PM

ElizaOSV2：AIのエンパワーメントAIは、補助ツールから独立したエンティティに進化しています。この記事では、ElizaOSV2の主要な革新と、AI主導の将来の経済をどのように形成するかについて説明します。 AIオートメーション：Elizaosを独立して操作することは、もともとWeb3オートメーションに焦点を当てたAIフレームワークでした。 V1バージョンを使用すると、AIはスマートコントラクトとブロックチェーンデータと対話できますが、V2バージョンは大幅なパフォーマンスの改善を実現します。単純な指示を実行する代わりに、AIはワークフローを独立して管理し、ビジネスを運営し、財務戦略を開発することができます。アーキテクチャのアップグレード：強化a

トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか？ Mar 04, 2025 pm 08:03 PM

トップマーケットメーカーのキャッスル証券のビットコインマーケットメーカーへの参入は、ビットコイン市場の成熟度の象徴であり、将来の資産価格設定力を競うための従来の金融勢力の重要なステップです。ブルームバーグによると、2月25日、シタデル証券は暗号通貨の流動性プロバイダーになろうとしています。同社は、Coinbaseglobal、Binanceholdings、Crypto.comが運営する取引所など、さまざまな取引所でマーケットメーカーのリストに参加することを目指していると、この問題に精通している人々は述べています。取引所によって承認されると、当社は当初、米国外にマーケットメーカーチームを設立することを計画していました。この動きは標識だけではありません

ビットワイズ：企業はビットコインを無視された大きな傾向を購入します Mar 05, 2025 pm 02:42 PM

毎週の観察：ビットコインを蓄えている企業 - 醸造の変化毎週のメモの見落とされがちな市場動向をよく指摘します。 MicroStrategyの動きは厳しい例です。多くの人は、「マイクロストラテジーとマイケルセイリャーはすでによく知られていますが、これは真実ですが、多くの投資家はそれを特別なケースと見なし、その背後にあるより深い市場の力を無視しています。このビューは片側です。ここ数ヶ月の予備資産としてのビットコインの採用に関する詳細な研究は、これが孤立したケースではなく、出現している主要な傾向であることを示しています。今後12〜18か月で、何百もの企業が訴訟を起こし、大量のビットコインを購入すると予測しています

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます Mar 12, 2025 pm 01:03 PM

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model（LVLM）のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT（視覚エンハンスメントファインチューニング）オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整（RFT）パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

Euzi Coin（EOS）価格予測：2025-2050のEOS価格のアナリストの予測 Mar 03, 2025 pm 10:30 PM

EOS価格予測と投資分析：分散型アプリケーション（DAPPS）とスマートコントラクトの開発を促進することを目的としたブロックチェーンプラットフォームとしての2025-2050 EOSの見通しは、2018年の発売以来多くの注目を集めています。委任された株式の証明（DPOS）メカニズムを採用しており、これにより、トランザクション速度とネットワーク帯域幅が大幅に向上します。この記事では、EOS価格の将来の傾向を詳細に調査し、投資家がより賢い決定を下すのに役立つ価格に影響を与える要因を分析します。キーポイント：2025年2月24日現在、EOS価格は0.6134ドルでした。 EOSの最高価格は22.8904ドル（2018年4月29日）で、最低価格

GOの浮動小数点番号操作に使用されるライブラリは何ですか？ Apr 02, 2025 pm 02:06 PM

GO言語の浮動小数点数操作に使用されるライブラリは、精度を確保する方法を紹介します...

Altcoin Investment Guide：Dex Exchangeにお金を払う方法を教えてください。今は低価格でポジションを構築するのに良い時期です Mar 05, 2025 am 09:45 AM

2018年の寒い冬、私は青海のゴビの太陽光発電所を検査しました。当時だった太陽光発電パネル配列。暗号市場は、従来の産業と同じサイクルを経験しています。 2012年から2016年までの太陽光発電業界のノックアウトマッチと同じように、CEX Altcoin市場は残酷な清算段階に入りました。2021年の多くのスタープロジェクトの毎日の取引量は1,000万米ドルを下回り、市場価値の中央値はピークから70％以上縮小しました。これは、高価格の在庫から低価格の在庫に落ちる太陽光発電、インターネット、石炭の巨人の軌跡のようなものです。しかし、周期的な残酷さの背後に、

See all articles

低品質のマルチモーダルデータ融合、複数の機関が共同でレビュー論文を発表

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック