ターゲット検出の分野は新たな進歩をもたらしました -
IDEA Research Institute チームによって作成された Grounding DINO 1.5 は、デバイス側でリアルタイム認識を実現できます。
この進歩は、通常は年に一度ペースを変えるAIの大物、Shun Xiangyangによって転送されました。
このリリースには主に Pro と Edge の 2 つのバージョンがあります。 Pro バージョンはより強力で、Edge バージョンはより高速です。
以前のバージョンを保持していますGrounding DINOデュアルエンコーダー-シングルデコーダー構造に基づいて、より大きなビジュアルバックボーンを組み合わせることでモデルサイズが拡張され、2,000万を超えるGroundingデータを使用して豊富なコーパスが取得されます。検出の精度と速度が大幅に向上し、Pro バージョンと Edge バージョンを通じてさまざまなアプリケーション シナリオに最適化されています。
大規模なデータセットの構築と高精度の需要シナリオでは、Pro バージョンが優れたパフォーマンスを発揮し、Edge バージョンはエンドサイドの展開で独自の利点を発揮します。
個別に見てみましょう。
Grounding+DINO+1.5プロバージョンは、オープンセットターゲット検出の現在のSOTAレベルを達成し、画像とテキストの意味論的な理解に優れ、画像に基づいて画像を迅速かつ正確に検出および識別できます。言語プロンプトのターゲット オブジェクト。
△COCO、LVIS、ODinW35、ODinW13 ベンチマークでのゼロショット転送パフォーマンスの比較
オブジェクトレベルの理解は、マシンと物理世界の間の相互作用の知覚的基礎であり、マルチの問題に対する解決策でもあります。 -モーダルラージモデル(VLM)錯視問題 回避できない基本的な問題。
現時点で最もパフォーマンスの高いオープンセット検出モデルとして、Grounding DINO 1.5 Pro は、オブジェクトレベルのセマンティック情報を含む大規模なマルチモーダル データの構築を支援し、それによってマルチモーダル大規模モデルのトレーニングを効果的に支援します。
長いテキストの説明内のフレーズと画像内の特定のオブジェクトやシーンを正確に照合して、ビジュアル コンテンツとテキストの関係に対する AI の理解を強化できます
さらに、大量の複雑なデータを処理する必要がある他のアプリケーションでも使用できますEコマース、ソーシャルメディア、自動運転などの分野でも、Grounding DINO 1.5 Proは強力な応用価値を持っています。
たとえば、電子商取引の分野では、このモデルは製品画像に迅速に注釈を付け、検索および推奨システムを最適化するのに役立ちます。ソーシャル メディアでは、このモデルはユーザーがアップロードした画像に自動的にラベルを付けることができ、コンテンツのレビューと分類の効率を向上させます。
さらに、Pro バージョンでは、さまざまな業界の特定のニーズを満たすために業界データによる微調整もサポートされており、それにより、より正確な識別結果が得られます。
微調整によってもたらされる改善を検証するために、CVR チームは視覚分野で一般的な LVIS などの公開データセットで比較実験を実施しました。
最後の 2 行からわかるように、Grounding DINO 1.5 Pro は微調整されており、複数のデータセットで大幅なパフォーマンスの向上が示されています。
また、多くの実用的なシーンにも非常に適しています。
医療分野と同様に、微調整されたGrounding DINO 1.5 Proは、医療画像内の病変をより正確に特定し、医師の診断を支援し、診断と治療の効率を向上させることができます。
小売業界では、微調整されたモデルにより商品をより正確に識別および分類でき、在庫管理や販売分析に役立ちます。
クライアント側の展開に関しては、Grounding DINO 1.5 Edge バージョンは、モデル構造の最適化により NVIDIA Orin NX カードに正常に展開され、10FPS の推論速度を達成しました。
さらに、ロボットがオープン環境と対話できるようになります。
自動運転の分野では、Grounding DINO 1.5 Edge は将来的に車両上でリアルタイムに実行され、効率的な目標検出と環境認識を実現し、運転の安全性を向上させることができます。スマートセキュリティでは、このモデルはビデオ監視データを迅速に処理し、異常な動作をリアルタイムで検出し、セキュリティ監視の応答速度を向上させることができます。
将来的には、Grounding DINO 1.5 Edgeの実行速度は20〜30FPSに増加すると予想され、エッジコンピューティング分野での適用範囲がさらに拡大します。
論文リンク:
https://arxiv.org/abs/2405.10300
プロジェクトトライアルリンク:
https://deepdataspace.com/playground/grounding_dino
以上がターゲット検出のための新しい SOTA、デバイスと側面のリアルタイム認識、Shen Xiangyang はめったに転送せず、いいね!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。