在此基礎上,網易伏羲基於圖文理解大模型進一步創新,提出一種基於關鍵局部信息的選取與重建的跨模態檢索方法,為多模態智能體解決特定領域下的圖像文本互動問題奠定技術基礎。
以下為本次入選論文概要:
《Selection and Reconstruction of Key Locals: A Novel Specific Domain Image-Text Retrieval Method》
關鍵局部資訊的選取與重建:一種新穎的特定領域圖文檢索方法
關鍵字:關鍵局部訊息,細微,可解釋
涉及領域:視覺語言預訓練(VLP),跨模態圖文檢索(CMITR)
近年來,隨著視覺語言預訓練(Vision- Language Pretraining, VLP) 模型的興起,跨模態影像文字檢索(Cross-Modal Image-Text Retrieval, CMITR) 領域取得了顯著進展。儘管像 CLIP 這樣的 VLP 模型在一般領域的 CMITR 任務中表現出色,但在特定領域影像文字擷取 (Specific Domain Image-Text Retrieval, SDITR) 中,其效能往往會不足。這是因為特定領域通常具有獨特的資料特徵,這些特徵區別於一般領域。
在特定領域內,圖像之間可能展現出高度的視覺相似性,而語義差異則往往集中在關鍵的局部細節上,例如圖像中的特定對象區域或文本中含義豐富的詞彙。即使是這些局部片段的細微變化也可能對整個內容產生顯著影響,從而凸顯了這些關鍵局部訊息的重要性。因此,SDITR 要求模型專注於關鍵的局部資訊片段,以增強影像與文字特徵在共享表示空間中的表達,進而改善影像與文字之間的對齊精確度。
本主題透過探討視覺語言預訓練模型在特定領域圖像-文字檢索任務中的應用,研究了特定領域圖像-文字檢索任務中的局部特徵利用問題。主要貢獻在於提出了一種利用具有判別性的細粒度局部資訊的方法,優化圖像與文字在共享表示空間中的對齊。
為此,我們設計了顯式關鍵局部資訊選擇和重建框架和基於多模態交互的關鍵局部段重構策略,這些方法有效地利用了具有判別性的細粒度局部信息,從而顯著提升了圖像與文本在共享空間中的對齊質量,廣泛和充分的實驗證明了所提出策略的先進性和有效性。
在此特別感謝西安電子科技大學IPIU實驗室對本論文的大力支持與重要研究貢獻。
この研究結果は、マルチモーダル研究分野における NetEase Fuxi の新たな重要な進歩を示すだけでなく、特定の分野におけるクロスモーダルな理解に新たな視点と技術サポートを提供します。特定のシナリオにおける画像とテキスト間のインタラクションの精度を最適化するこの研究は、実際のアプリケーションシナリオにおけるクロスモーダル理解テクノロジーの向上のための強固な基盤を築きます。以上是ACM MM2024 | 網易伏羲多模態研究再獲國際認可,推動特定領域跨模態理解新突破的詳細內容。更多資訊請關注PHP中文網其他相關文章!