これに基づいて、NetEase Fuxi は、画像とテキストの理解の大規模モデルに基づいてさらに革新し、重要なローカル情報の選択と再構成に基づいて、複数の画像テキストを特定のフィールドで解決するクロスモーダル検索方法を提案しました。モーダル エージェントの相互作用の問題が技術的基盤を築きます。
以下は選ばれた論文の概要です:
「主要なローカルの選択と再構成: 新しい特定ドメイン画像テキスト検索方法」
主要なローカル情報の選択と再構成: 新しいドメイン固有の画像とテキスト検索手法
キーワード: 重要なローカル情報、細粒度、解釈可能
関与分野: 視覚言語事前学習(VLP)、クロスモーダル画像とテキスト検索(CMITR)
近年、視覚言語事前学習により、 -トレーニング (ビジョン) 言語事前トレーニング (VLP) モデルの台頭により、クロスモーダル画像テキスト検索 (CMITR) の分野で大きな進歩が見られました。 CLIP のような VLP モデルは、ドメイン全般の CMITR タスクでは良好なパフォーマンスを発揮しますが、特定のドメインの画像テキスト取得 (SDITR) ではパフォーマンスが不十分になることがよくあります。これは、特定のドメインには、一般的なドメインとは異なる固有のデータ特性があることが多いためです。
特定の領域では、画像はそれらの間で高度な視覚的類似性を示す場合がありますが、意味論的な違いは、画像内の特定のオブジェクト領域やテキスト内の意味のある単語など、重要な局所的な詳細に焦点を当てる傾向があります。これらのローカル セグメントの小さな変更であっても、コンテンツ全体に大きな影響を与える可能性があり、この重要なローカル情報の重要性が強調されます。したがって、SDITR では、モデルが重要なローカル情報フラグメントに焦点を当てて、共有表現空間における画像とテキストの特徴の表現を強化し、それによって画像とテキストの間の位置合わせ精度を向上させる必要があります。
このトピックでは、特定の分野の画像テキスト検索タスクにおける視覚言語事前トレーニング モデルの適用を検討し、特定の分野の画像テキスト検索タスクにおける局所特徴の利用の問題を研究します。主な貢献は、識別可能なきめの細かいローカル情報を利用して、共有表現空間における画像とテキストの配置を最適化する方法を提案することです。この目的のために、私たちは明示的なキーローカル情報の選択と再構成フレームワーク、およびマルチモーダルインタラクションに基づくキーローカルセグメント再構成戦略を設計します。これらの方法は、識別可能なきめの細かいローカル情報を効果的に利用し、それによって画像と広範で十分な情報を大幅に改善します。共有スペースでのテキストの配置の品質に関する実験により、提案された戦略の進歩と有効性が実証されました。
この論文に対する強力な支援と重要な研究貢献に対して、西安電子科学技術大学の IPIU 研究室に特別に感謝します。
這項研究成果不僅標誌著網易伏羲在多模態研究領域再次取得重要突破,也為特定領域的跨模態理解提供了全新的視角和技術支撐。優化圖像與文字在特定場景下的互動準確度,這項工作為跨模態理解技術在實際應用場景中的提升奠定了堅實的基礎。
目前,網易伏羲的多模態理解能力已在網易集團的多個業務部門廣泛應用,包括網易雷火、網易雲音樂、網易元氣等。這些應用程式涵蓋了諸如遊戲創新性文字捏臉玩法、跨模態資源搜尋、個人化內容推薦等多種場景,展現了巨大的業務價值。
未來,隨著研究的深入與技術進步,該成果有望促進人工智慧技術在教育、醫療、電子商務等多個行業的廣泛應用,為用戶提供更個人化和智慧化的服務體驗。網易伏羲也將持續深化與國內外頂尖學術機構的交流與合作,在更多前沿研究領域展開深入探索,共同推動人工智慧技術的發展,為建構一個更有效率、更智慧的社會貢獻。
掃描下方二維碼,立即體驗“丹青約”,享受“更懂你”的圖文並茂的多模互動體驗!
以上がACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。