哈工大提出創新迭代推理架構 DPE-MNER ：充分發揮多模態表示潛力-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

這篇文章的作者團隊來自於哈工大社會計算與資訊檢索研究中心，作者團隊構成：鄭子王、小囌、小娼與資訊檢索研究中心，作者團隊構成：鄭子王、小娼、大智王吉、劉銘、王仲遠、秦兵。

多模態表示

多模態命名實體識別，作為構建多模態知識圖譜的一項基礎而關鍵任務，要求研究者整合多種模態資訊以精準地從文本中提取命名實體。儘管過去的研究已經在不同層次上探索了多模態表示的整合方法，但在將這些多模態表示融合以提供豐富上下文資訊、進而提升多模態命名實體識別的性能方面，它們仍顯不足。

本文，研究團隊提出了DPE-MNER，一個創新的迭代推理框架，它遵循「分解、優先、消除」的策略，動態地整合了多樣化的多模態表示。該框架巧妙地將多模態表示的融合分解為層次化且相互連接的融合層，大大簡化了處理過程。在整合多模態資訊時，團隊特別強調了從「簡單到複雜」和「宏觀到微觀」的漸進式過渡。此外，透過明確地建模跨模態的相關性，研究團隊有效地排除了那些可能對MNER預測造成誤導的不相關資訊。透過在兩個公共資料集上進行的廣泛實驗，研究團隊的方法已被證實在提升多模態命名實體識別的準確性和效率方面具有顯著效果。本文為LREC-COLING 2024 1558篇錄用論文中的十篇最佳論文候選之一。

哈工大提出创新迭代推理框架 DPE-MNER ：充分发挥多模态表示潜力

論文連結：https://www.php.cn/link/4b4984066015df12cfc4e8f6d60b7147

^{多模態命名實體辨識的一個實例。研究團隊展示了對於命名實體識別決策可能有用的多種多模態表示。人類通常在心中以迭代的方式處理這些資訊。}

為解決這一問題，研究團隊從複雜問題解決（Sternberg 和 Frensch，1992）這一領域中獲得靈感。該領域專注於研究人類和電腦在解決包含多個變數、不確定性和高複雜性的問題時所採用的方法和策略。首先他們認為，當面對複雜問題時，人類一般會採用迭代的處理方式，如圖所示，研究團隊在處理MNER時其實也是個迭代的過程。其次，人類會運用特定策略來簡化這些問題，例如分解、優先排序和排除不相關因素。

該研究團隊認為，將多模態命名實體識別（MNER）視為一個整合多模態資訊的迭代過程，並運用這些策略，非常適合MNER任務。與單一步驟的方法相比，多步驟的方法能夠在迭代優化命名實體識別（NER）結果的過程中，更全面地利用多樣化的多模態表示。

此外，這三種策略非常適合於多模態NER中多種表示的整合：

分解策略鼓勵我們將多模態表示的融合拆分為更小、更小、更小、更小易於處理的單元，這些單元能夠在不同的粒度級別上探索多模態交互作用。

優先排序策略建議根據「由易到難」和「由粗到細」的順序來整合多模態資訊；這種漸進式的整合有助於MNER預測的逐步最佳化。這使得模型能夠逐步將注意力從簡單但粗糙的資訊轉移到複雜但精確的細節。

不相關性消除策略啟發我們顯式地篩選並排除不同多模態表示中的無關資訊；這可以消除那些可能影響MNER性能的無關資訊。

方法

研究團隊設計了一個迭代的動態融合多種多模態特徵的多模態實體抽取框架，其包含一個迭代過程以及網絡。

迭代建模MNER

研究團隊沿用擴散模型將物體識別，視覺對齊以及文本實體抽取建模為迭代的去噪過程的方式，同樣使用了擴散模型將多模態實體抽取建模為迭代過程。模型首先隨機初始化一系列的實體區間，基於一個預測網路編碼多模態特徵來在去噪過程中迭代地去噪得到文本中的正確實體區間。

預測網

如圖所示，研究團隊共獲取了文本中的三種粒度的表示，圖片中的兩種粒度表示是簡單的表示，不對齊的是困難的表示)的表示。該團隊的預測網路AMRN包含一個編碼網路(DMMF)以及解碼網路(MER)。預測網路的設計是基於前面所提到的三種策略。

如圖所示，編碼網絡是一個層次化的融合網絡，將多種多模態特徵融合分解為了一個層次化的過程。自底向上是先將相同粒度不同難度的圖片特徵融合到每個粒度的文本特徵中$x_i$, 將不同粒度的圖片特徵$Y$融合到每個粒度的文本特徵，最後將不同粒度的圖片特徵Y和文字特徵X融合，得到最終的多模態表示。輸入到解碼網路中進行解碼，解碼網路得到新的區間，以及每個區間的實體類型。

底層融合。這一層研究團隊將某一個粒度的圖片特徵融合到某一個粒度的文字特徵中。根據擴散過程，研究團隊可以得到一個調度器，該調度器可以反映當前的迭代的狀態，也是引入優先權的關鍵。研究團隊基於此調度器將不同難度的圖片特徵融合在一起得到與相關性rel，用於消除其中的無關資訊。最後結合此相關性使用了一個bottleneck transformer來進行與的融合，得到了某一粒度的多模態影像文字融合表示。

中層融合。這一層研究團隊將不同粒度的圖片特徵融合到某一個粒度的文字特徵中，也就是融合。這一層我們使用了調度器來對不同粒度的圖片特徵進行動態融合，得到了某一粒度的多模態文字表示。

頂層融合。這一層研究團隊將不同粒度的多模態文字表示融合到區間的表示中，得到總的多模態的文字表示，輸入到解碼網路中進行預測。

實驗結果

主實驗

主實驗
實驗結果顯示該方法在兩個常用的數據集上取得了最佳的性能。
消融實驗
研究者分別去除了我們論文中關於優先級、層次化、以及消除的設計，來觀察
研究者分別去除了我們論文中關於優先級、層次化、以及消除的設計，來觀察模型性能，結果表明各個模型性能，結果表明各個模型均帶來了性能的下降。
與靜態特徵融合方法的對比
他們對比了一些典型的靜態多模態融合方法，例如最大池化，平均🎜🎜他們對比了一些典型的靜態多模態融合方法，例如最大池化，平均🎜🎜他們對比了一些典型的靜態多模態融合方法，例如最大池化，平均池結果顯示他們所提出的動態融合框架能達到最好的性能。 🎜🎜🎜🎜
典型範例分析

研究團隊選取了兩個代表性的範例來顯示迭代過程。可以看到在最開始的迭代步驟裡，time square和cubs的類型被錯誤地預測了；然而根據圖片中的重要特徵線索，迭代地修正為了正確的實體類型。
結論

本文旨在多模態命名實體識別（MNER）領域內，充分地發揮各種多模態表示的潛力，以期獲得卓越的識別效果。為此，作者們設計並提出了一個創新的迭代推理架構—DPE-MNER。 DPE-MNER將MNER任務分解為多個階段，巧妙地簡化了對這些豐富多樣的多模態表示的整合過程。在這迭代過程中，多模態表示依據「分解、優先排序與消除」的策略，實現了動態的融合與整合。透過一系列嚴謹的實驗驗證，研究團隊充分展現了DPE-MNER框架的顯著效果和優越性能。

^{參考文獻：}
^{[1] Knowledge Graphs Meet Multi-Modal Learning: Comprehensive Survey, arxiv. and Eliminate: Dynamically Integrating Diverse Representations for Multi-modal Named Entity Recognition,2024,Joint International Conference on Computational Linguistics, Language Resources and Evaluation}
^Psych
[4] DiffusionNER: Boundary Diffusion for Named Entity Recognition, ACL23
[5] DiffusionDet: Donion Model for Object
^{[5] DiffusionDet: Dolf. d Diffusion Model for Visual Grounding , arxiv23}

以上是哈工大提出創新迭代推理架構 DPE-MNER ：充分發揮多模態表示潛力的詳細內容。更多資訊請關注PHP中文網其他相關文章！