新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました

WBOY
リリース: 2023-11-24 08:10:38
転載
1175 人が閲覧しました

Grounded SAM の人気を受けて、IDEA Research Institute チーム が大ヒット作を携えて戻ってきました。新しいビジュアル プロンプトビジュアル プロンプト)モデルT-Rexx、特定されました画像による 箱から出してすぐに使えるフィギュア、新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました は、開集合検出の新しい世界を開きます。 ボックスを引いて検出し、完了です。閉幕したばかりの2023年のIDEAカンファレンスで、IDEA研究所の創設会長で国家工程院の外国人学者でもある沈祥陽氏は、視覚的な合図に基づく新しい目標検出体験をデモンストレーションし、新しい目標のモデル実験室(遊び場)を公開した。視覚キュー モデル T-Rex )、インタラクティブ ビジュアル プロンプト (iVP) は、現場で裁判のクライマックスの波を引き起こします。

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりましたiVP では、ユーザーは個人的に「百聞は一見に如かず」というプロンプト エクスペリエンスのロックを解除できます。画像上の関心のあるオブジェクトにマークを付け、モデルに視覚的な例を提供し、モデルはターゲット画像内の類似したインスタンスをすべて検出します。プロセス全体は対話型で、わずか数ステップで簡単に完了できます。

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりましたアイデア総研が 4 月にリリースした Grounded SAM (Grounding DINO SAM) は、かつて Github で非常に人気があり、これまでに 11,000 個のスターを集めています。テキストプロンプトのみをサポートするGrounded SAMとは異なり、今回リリースされたT-Rexモデルは、強力なインタラクションの作成に重点を置いたビジュアルプロンプト機能を提供します。

T-Rex は、すぐに使える強力な機能を備えており、再トレーニングや微調整を行わずに、トレーニング段階でモデルが一度も見たことのないオブジェクトを検出できます。このモデルは、カウントを含むすべての検出タスクに適用できるだけでなく、インテリジェントなインタラクティブな注釈シナリオのための新しいソリューションも提供します。

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました#チームは、視覚的プロンプト技術の開発が実際のシーンにおける問題点の観察から得られたことを明らかにしました。一部のパートナーは、ビジュアル モデルを使用してトラック上の商品の数を数えたいと考えていますが、このモデルではテキスト プロンプトだけでは各商品を個別に識別できません。その理由は、産業シーンでのオブジェクトは日常生活では稀であり、言葉で説明するのが難しいためです。この場合、視覚的な手がかりの方が明らかに効率的なアプローチです。同時に、直感的な視覚フィードバックと強力な対話性も、検出の効率と精度の向上に役立ちます。

実際の使用要件に関する洞察に基づいて、チームは、複数の視覚的プロンプトを受け入れ、複数の画像にわたってプロンプトを表示できるモデルとして T-Rex を設計しました。最も基本的なシングルラウンド プロンプト モードに加えて、現在のモデルは次の 3 つの高度なモードもサポートしています。

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました

マルチラウンド ポジティブ モード: 次のような場合に適しています。視覚的なプロンプトが十分に正確ではない 検出漏れを引き起こすシナリオ
  • 肯定的な例と否定的な例モード:視覚的なプロンプトが曖昧で誤検出を引き起こすシナリオに適しています
  • クロスピクチャ モード:次のような場合に適しています単一の参照画像を通じて検出を促す 彼が描いたシーン
  • 同時に発表された技術レポートで、チームはティラノサウルス モデルの 4 つの主な特徴を要約しました:

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました

オープン セット: 事前定義されたカテゴリに制限されず、すべてのオブジェクトを検出できます。
  • ビジュアル プロンプト: 視覚的な例を使用して検出ターゲットを指定し、まれに発生する問題を克服します。複雑なオブジェクトは言葉で完全に表現することが難しいため、迅速な効率が向上します。
  • 直観的な視覚フィードバック: 境界ボックスなどの直観的な視覚フィードバックを提供して、ユーザーが検出結果を効率的に評価できるようにします
  • 対話性: ユーザーは次のことができます。検出プロセスに便利に参加し、モデルの結果を正確に修正
  • 研究チームは、ターゲット検出シナリオでは、視覚的な手がかりを追加することでテキスト キューの欠点の一部を補うことができると指摘しました。将来的には、この 2 つを組み合わせることで、より垂直な分野で CV テクノロジーの可能性がさらに解き放たれるでしょう。

ティラノサウルスモデルの技術的な詳細については、同時公開のテクニカルレポートをご参照ください。

新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりました

iVP

モデル ラボ: https://deepdataspace.com/playground/ivp

Github リンク: trex-counting.github.io

この作品は、IDEA Institute のコンピューター ビジョンおよびロボティクス研究センターから提供されました。チームの以前のオープンソース ターゲット検出モデル DINO は、COCO ターゲット検出ランキングで 1 位を獲得した最初の DETR モデルでした。Github で非常に人気のあるゼロショット検出器 Grounding DINO と、DINO はあらゆるオブジェクトを検出してセグメント化できます。グラウンデッド SAM、またこのチームの仕事

以上が新技術の発表、IDEA Research Institute が T-Rex モデルをリリース、ユーザーが画像上で直接「プロンプト」プロンプトを選択できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート