ホームページ > テクノロジー周辺機器 > AI > ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用

ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用

WBOY
リリース: 2024-07-03 10:44:16
オリジナル
506 人が閲覧しました
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


この記事の著者チームはハルビン工業大学のソーシャル コンピューティングおよび情報検索研究センターから来ています。著者チームは次のメンバーで構成されています。鄭子豪、張子涵、王則信、傅瑞基、劉明、王忠源、秦兵。

マルチモーダル表現

マルチモーダルナレッジグラフを構築する際の基本的かつ重要なタスクとして、マルチモーダル固有表現認識では、研究者が複数のモーダル情報を統合してテキストから固有表現を正確に抽出する必要があります。これまでの研究では、さまざまなレベルでのマルチモーダル表現の統合方法が検討されてきましたが、これらのマルチモーダル表現を融合して豊富なコンテキスト情報を提供し、それによってマルチモーダル固有表現認識のパフォーマンスを向上させるにはまだ不十分です。

この論文で、研究チームは、「分解、優先順位付け、排除」戦略に従い、多様なマルチモーダル表現を動的に統合する革新的な反復推論フレームワークであるDPE-MNERを提案します。このフレームワークは、マルチモーダル表現の融合を階層的で相互接続された融合層に巧みに分解し、処理プロセスを大幅に簡素化します。マルチモーダルな情報を統合する際、チームは「単純から複雑」および「マクロからミクロ」への段階的な移行に特に重点を置きました。さらに、クロスモーダル相関を明示的にモデル化することで、研究チームは、MNER の予測を誤解させる可能性のある無関係な情報を効果的に排除しています。 2 つの公開データセットに対する広範な実験を通じて、研究チームの方法はマルチモーダル固有表現認識の精度と効率を向上させるのに非常に効果的であることが証明されました。この論文は、LREC-COLING 2024 に受理された 1558 件の論文の中から上位 10 件の論文候補の 1 つです。

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

  • 紙のリンク: https://www.php.cn/link/4b4984066015df12cfc4e8f6d60b7147

モチベーション


哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

マルチモーダル固有表現認識の例。研究チームは、固有表現認識の決定に役立つ可能性のあるさまざまなマルチモーダル表現を実証しました。人間は通常、この情報を反復的に頭の中で処理します。

この問題に対処するために、研究チームは複雑な問題解決の分野からインスピレーションを得ました (Sternberg and Frenchch、1992)。この分野は、複数の変数、不確実性、および高度な複雑性を伴う問題を解決するために人間とコンピューターが使用する方法と戦略の研究に焦点を当てています。まず、複雑な問題に直面したとき、人間は一般的に反復的なアプローチを採用すると考えられています。図に示されているように、研究チームは実際に MNER に対処する際に反復的なプロセスを使用しています。第二に、人間は、無関係な要素を分解、優先順位付け、排除するなど、特定の戦略を使用してこれらの問題を単純化します。

研究チームは、マルチモーダル固有表現認識 (MNER) を、マルチモーダル情報を統合し、これらの戦略を使用する反復プロセスとして扱うことが、MNER タスクに非常に適していると考えています。シングルステップ手法と比較して、マルチステップ手法は、固有表現認識 (NER) の結果を反復的に最適化するプロセスにおいて、多様なマルチモーダル表現をより包括的に活用できます。

さらに、これら 3 つの戦略は、マルチモーダル NER での複数の表現の統合に非常に適しています:

  • 分解戦略は、マルチモーダル表現の融合をより小さな、さまざまな粒度レベルでマルチモーダルなインタラクションを調査できる、扱いやすいユニット。
  • 優先順位付け戦略では、「簡単なものから難しいもの」、「粗いものから細かいもの」の順序に従ってマルチモーダル情報を統合することが推奨されており、この段階的な統合は、MNER 予測の段階的な最適化に貢献します。これにより、モデルは、単純だが大まかな情報から、複雑だが正確な詳細へと徐々に注意を移すことができます。
  • 無関係性排除戦略は、さまざまなマルチモーダル表現で無関係な情報を明示的に選別して除外することを促します。これにより、MNER のパフォーマンスに影響を与える可能性のある無関係な情報を排除できます。

方法

研究チームは、複数のマルチモーダル特徴を動的に融合する反復プロセスと予測ネットワークを含む、反復マルチモーダルエンティティ抽出フレームワークを設計しました。

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

反復モデリング MNER

研究チームは、拡散モデルに従い、反復ノイズ除去プロセスとしてオブジェクト認識、視覚的位置合わせ、およびテキスト エンティティ抽出をモデル化し、さらに拡散モデルを使用してマルチモーダル エンティティ抽出を組み合わせました。反復プロセスとしてモデル化されます。このモデルは、まず一連のエンティティ間隔 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力 をランダムに初期化し、予測ネットワークを使用してマルチモーダル特徴をエンコードし、ノイズ除去プロセス中に繰り返しノイズを除去して、テキスト内の正しいエンティティ間隔 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力 を取得します。

予測ネットワーク

図に示すように、研究チームはテキスト哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力で合計3つの粒度表現、つまり画像で2つの粒度と2つの難易度を取得しました(彼らは、それらが一致していると信じています)表現は単純な表現であり、位置がずれている表現は難しい表現です) 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力。チームの予測ネットワーク AMRN には、エンコード ネットワーク (DMMF) とデコード ネットワーク (MER) が含まれています。予測ネットワークの設計は、前述の 3 つの戦略に基づいています。

図に示すように、エンコーディング ネットワークは、複数のマルチモーダルな特徴を融合して階層プロセスに分解する階層融合ネットワークです。ボトムアップのプロセスは、まず同じ粒度で異なる難易度の画像特徴量 を各粒度のテキスト特徴量 $x_i$ に統合し、次に異なる粒度の画像特徴量 $Y$ を各粒度のテキスト特徴量 に統合します。 、そして最後に、異なる粒度特徴 $Y$ を各粒度のテキスト特徴 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力 に統合します。 画像特徴 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力Y とテキスト特徴 X が融合されて、最終的なマルチモーダル表現が得られます。復号化のために復号化ネットワークに入力すると、復号化ネットワークは新しい間隔と各間隔のエンティティ タイプを取得します。

根底にある融合。このレベルの研究チームは、特定の粒度の画像特徴を特定の粒度のテキスト特徴に統合します。普及プロセスによれば、研究チームは現在のイテレーションのステータスを反映できるスケジューラを入手できます。これは
優先度を導入するための鍵でもあります。研究チームは、このスケジューラーに基づいて、さまざまな難易度の画像の特徴を融合して、哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力の相関関係哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力relを取得しました。これは、無関係な情報を排除するために使用されます。最後に、この相関関係に基づいてボトルネック変換器を使用してを融合し、一定の粒度のマルチモーダル画像とテキストの融合表現ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用が得られました。 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

ミッドレイヤーフュージョン。この層の研究チームは、異なる粒度の画像特徴を特定の粒度のテキスト特徴に融合、つまりフュージョンハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用します。この層では、スケジューラーを使用してさまざまな粒度の画像特徴を動的に融合し、特定の粒度のマルチモーダル テキスト表現を取得します哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

トップフュージョン。この層の研究チームは、異なる粒度のマルチモーダル テキスト表現 ハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用 を区間表現に融合して、全体的なマルチモーダル テキスト表現 哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力 を取得し、これを予測のために復号ネットワークに入力します。

実験結果

主な実験

著者チームは、MNERのいくつかの典型的な方法を比較しました。実験結果は、この方法が一般的に使用される 2 つのデータ セットで最高のパフォーマンスを達成することを示しています。
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力
アブレーション実験

研究者らは、モデルのパフォーマンスを観察するために、論文の優先順位付け、階層化、および消去の設計を削除しました。その結果、各設計を削除するとパフォーマンスが低下することがわかりました。
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力
静的特徴融合手法との比較

最大プーリング、平均プーリング、MLPベースおよびMoEベースの手法など、いくつかの典型的な静的マルチモーダル融合手法を比較しました。その結果彼らが提案した動的融合フレームワークが最高のパフォーマンスを達成できることを示しています。

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

典型的なサンプル分析

研究チームは、反復プロセスを説明するために 2 つの代表的なサンプルを選択しました。最初の反復ステップでは、タイム スクエアとキューブのタイプが誤って予測されたことがわかりますが、画像内の重要な特徴の手がかりに基づいて、正しいエンティティ タイプに反復的に修正されました。
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力
結論

この論文は、優れた認識結果を得るために、マルチモーダル固有表現認識 (MNER) の分野におけるさまざまなマルチモーダル表現の可能性を最大限に活用することを目的としています。この目的を達成するために、著者らは革新的な反復推論フレームワークである DPE-MNER を設計し、提案しました。 DPE-MNER は、MNER タスクを複数の段階に分解することで、これらの豊富で多様なマルチモーダル表現の統合プロセスを巧みに簡素化します。この反復プロセスでは、マルチモーダル表現が「分解、優先順位付け、除去」の戦略に基づいて動的な融合と統合を実現します。一連の厳密な実験検証を通じて、研究チームは、DPE-MNER フレームワークの顕著な効果と優れたパフォーマンスを十分に実証しました。

参考文献:
[1] ナレッジグラフとマルチモーダル学習の融合: 包括的な調査、arxiv
[2] 分解、優先順位付け、除去: ダイバーシティをダイナミックに統合マルチモーダル固有表現認識のための表現、2024 年、計算言語学、言語資源および評価に関する国際会議
[3] 複雑な問題解決: 原理とメカニズム、1992 年、American Journal of Psycholog
[4] DiffusionNER: 固有表現認識のための境界拡散、ACL23
[5] DiffusionDet: オブジェクト検出のための拡散モデル、ICCV23
[6] 言語ガイド付き拡散視覚的グラウンディングのためのモデル、arxiv23

以上がハルビン工業大学が革新的な反復推論フレームワーク DPE-MNER を提案: マルチモーダル表現の可能性を最大限に活用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート