現在、マルチモーダル大規模モデル (MLLM)は、複数の視覚タスクに対して強力な認知的理解能力を実証しています。
しかし、ほとんどのマルチモーダル大規模モデルは一方向の画像理解に限定されているため、理解したコンテンツを画像にマッピングし直すことが困難になります。
たとえば、モデルは写真内にどのようなオブジェクトがあるかを簡単に判断できますが、写真内のオブジェクトを正確に識別することはできません。
測位機能の欠如は、画像編集、自動運転、ロボット制御などの下流分野におけるマルチモーダル大型モデルの応用を直接的に制限します。
この問題に対応して、香港大学の研究者とバイトダンス商業化チームは、新しいパラダイムGromaを提案しました。 -
は、地域画像エンコーディングを通じてマルチモーダル大規模モデルの知覚測位機能を向上させます。
位置決めを統合した後、Groma はテキスト コンテンツと画像領域を直接接続できるため、会話の対話性と方向性が大幅に向上します。この方法は、元の意味を変えることなく、表現を少し調整するだけです。
マルチモーダル大規模モデルにオブジェクトの位置を特定する機能、つまりテキストコンテンツを画像領域に関連付けて「意味のある単語」を実現する機能をどのように与えるかが、現在主要な研究のホットスポットとなっています。 マルチモーダル大規模モデルの目標は、画像と対応するテキスト説明が与えられたときに、その説明に対応する画像内の領域を見つけられるようにすることです。このタスクは、画像とテキストの位置合わせ問題と呼ばれます。 この問題を解決するための一般的なアプローチは、オブジェクト座標を直接出力するように大規模な言語モデルを微調整することです。ただし、この方法には多くの制限があります:
1. テキスト自体で事前トレーニングされた大規模な言語モデルには空間を理解する機能がなく、少量のデータのみに依存してオブジェクトを正確に位置特定することは困難です。微調整。2.
位置決めタスクには入力画像の解像度に対する高い要件がありますが、解像度を上げると大規模なマルチモーダル モデルの計算量が大幅に増加します。3.
大規模な言語モデルの出力形式は、セグメンテーションなどの細かい位置決めタスクの処理には適していません。これらの考慮事項に基づいて、Groma は、位置決めをマルチモーダル大規模モデルのビジョン トークナイザーに転送することを提案しました。ビジョン トークナイザーは、潜在的なオブジェクトを検出して位置を特定し、認識のためにそれらを大規模言語モデルに渡します。
同時に、この設計は、位置決めを支援する外部の専門家モデル (SAM など)
を必要とせず、ビジョントークナイザー自体の空間理解能力も最大限に活用しており、したがって、外部モデル。具体的には、Groma は、グローバル画像エンコーディングに基づく位置特定機能を実現するために領域コーディングを導入しています。以下の図に示すように、Groma は、まず、Region Proposer を使用して潜在的なオブジェクトを特定し、次に、Region Encoder を使用して、特定された領域を 1 つずつ特定します。リージョントークンにエンコードされます。
大規模言語モデルは、領域トークンの意味論的な意味に基づいて対応する領域を決定し、出力に領域トークンを挿入することでハイパーリンクのような効果を実現し、視覚的に根拠のある会話を実現します。 同様に、ユーザーが指定した領域も、Region Encoder を通じて対応する領域トークンにエンコードしてユーザー コマンドに挿入することができるため、マルチモーダル モデルは指定された領域に焦点を当て、方向性のある回答を生成できます。測位の堅牢性と精度を向上させるために、Groma は 800 万を超えるデータ (SA1B を含む)
を使用して、Region Proposer を事前トレーニングします。したがって、生成される提案には、一般的なオブジェクトだけでなく、オブジェクトのコンポーネントやより広範な背景などの要素も含まれます。さらに、Groma は分離された設計のおかげで、Region Proposer/Encoder の入力には高解像度の特徴マップを使用し、大規模なモデルの入力には低解像度の特徴マップを使用できるため、位置決めパフォーマンスを損なうことなく計算量を削減できます。
実験結果Groma は、従来のグラウンディング ベンチマークで MiniGPT-v2 および Qwen-VL を上回るパフォーマンスを実証しました。同時に、Groma は、マルチモーダル大規模モデルに共通する VQA ベンチマーク (LLaVA-COCO) で対話機能と推論機能を検証しました。
視覚的な比較では、Groma の方が高い再現率と幻覚の少なさも示しました。
さらに、Groma は、対話機能とポジショニング機能を統合した紹介ダイアログとグラウンディング チャットもサポートしています。
大規模言語モデルの強力な認知推論機能のおかげで、マルチモーダル大規模モデルは視覚的理解タスクにおいて優れたパフォーマンスを発揮します。
ただし、検出セグメンテーション、深度推定などの一部の従来の視覚タスクは視覚認識機能に依存しており、これはまさに大規模な言語モデルに欠けているものです。
Groma は、この問題に対する新しい解決策を提供します。それは、知覚と認知を分離し、知覚を担当するビジョントークナイザーと認知を担当する大規模言語モデルを使用します。
最初に知覚し、次に認知するこの形式は、人間の視覚プロセスとより一致しているだけでなく、大規模な言語モデルを再トレーニングする際の計算オーバーヘッドも回避します。
5 月 15 日、ByteDance は自社開発の Doubao 大規模モデルを発表しました。これはマルチモーダル機能を提供し、ダウンストリームでは Doubao APP、Kouzi、Jimeng などの 50 以上のビジネスをサポートし、Volcano エンジンを通じて企業顧客に開放されています。企業の効率向上とインテリジェントなイノベーションの加速を支援します。現在、Doubao APP は中国市場で最も多くのユーザーを抱える AIGC アプリケーションとなっています。 ByteDance は引き続き優秀な人材と最先端のテクノロジーへの投資を増やし、業界の最大の技術的課題や困難に取り組んでいます。
プロジェクトのウェブサイト:
https://www.php.cn/link/07a81d45ff030b63fe2a0f375b779f09
紙のリンク: https://www.php.cn/link/ b82b80956cfbe75101bd223fe6319dec
オープンソースコード:
https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764
以上がHKU Byte は、まず人間の知覚をシミュレートし、次に認知をシミュレートして、画像内のオブジェクトの位置を正確に特定する、マルチモーダル大規模モデルの新しいパラダイムを提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。