Grounded SAM の人気を受けて、IDEA Research Institute チーム が大ヒット作を携えて戻ってきました。新しいビジュアル プロンプト(ビジュアル プロンプト)モデルT-Rexx、特定されました画像による 箱から出してすぐに使えるフィギュア、
ボックスを引いて検出し、完了です。閉幕したばかりの2023年のIDEAカンファレンスで、IDEA研究所の創設会長で国家工程院の外国人学者でもある沈祥陽氏は、視覚的な合図に基づく新しい目標検出体験をデモンストレーションし、新しい目標のモデル実験室(遊び場)を公開した。視覚キュー モデル T-Rex )、インタラクティブ ビジュアル プロンプト (iVP) は、現場で裁判のクライマックスの波を引き起こします。iVP では、ユーザーは個人的に「百聞は一見に如かず」というプロンプト エクスペリエンスのロックを解除できます。画像上の関心のあるオブジェクトにマークを付け、モデルに視覚的な例を提供し、モデルはターゲット画像内の類似したインスタンスをすべて検出します。プロセス全体は対話型で、わずか数ステップで簡単に完了できます。
アイデア総研が 4 月にリリースした Grounded SAM (Grounding DINO SAM) は、かつて Github で非常に人気があり、これまでに 11,000 個のスターを集めています。テキストプロンプトのみをサポートするGrounded SAMとは異なり、今回リリースされたT-Rexモデルは、強力なインタラクションの作成に重点を置いたビジュアルプロンプト機能を提供します。
T-Rex は、すぐに使える強力な機能を備えており、再トレーニングや微調整を行わずに、トレーニング段階でモデルが一度も見たことのないオブジェクトを検出できます。このモデルは、カウントを含むすべての検出タスクに適用できるだけでなく、インテリジェントなインタラクティブな注釈シナリオのための新しいソリューションも提供します。
#チームは、視覚的プロンプト技術の開発が実際のシーンにおける問題点の観察から得られたことを明らかにしました。一部のパートナーは、ビジュアル モデルを使用してトラック上の商品の数を数えたいと考えていますが、このモデルではテキスト プロンプトだけでは各商品を個別に識別できません。その理由は、産業シーンでのオブジェクトは日常生活では稀であり、言葉で説明するのが難しいためです。この場合、視覚的な手がかりの方が明らかに効率的なアプローチです。同時に、直感的な視覚フィードバックと強力な対話性も、検出の効率と精度の向上に役立ちます。
実際の使用要件に関する洞察に基づいて、チームは、複数の視覚的プロンプトを受け入れ、複数の画像にわたってプロンプトを表示できるモデルとして T-Rex を設計しました。最も基本的なシングルラウンド プロンプト モードに加えて、現在のモデルは次の 3 つの高度なモードもサポートしています。
マルチラウンド ポジティブ モード: 次のような場合に適しています。視覚的なプロンプトが十分に正確ではない 検出漏れを引き起こすシナリオオープン セット: 事前定義されたカテゴリに制限されず、すべてのオブジェクトを検出できます。
ティラノサウルスモデルの技術的な詳細については、同時公開のテクニカルレポートをご参照ください。
iVPモデル ラボ: https://deepdataspace.com/playground/ivp
Github リンク: trex-counting.github.io
この作品は、IDEA Institute のコンピューター ビジョンおよびロボティクス研究センターから提供されました。チームの以前のオープンソース ターゲット検出モデル DINO は、COCO ターゲット検出ランキングで 1 位を獲得した最初の DETR モデルでした。Github で非常に人気のあるゼロショット検出器 Grounding DINO と、DINO はあらゆるオブジェクトを検出してセグメント化できます。グラウンデッド SAM、またこのチームの仕事
以上が新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。