ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

王林
リリース: 2023-04-12 17:31:17
転載
1102 人が閲覧しました

この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。

さあ、AI サークルが手の速さを競う時が来ました。

いいえ、Meta の SAM は数日前にリリースされたばかりで、国内のプログラマーが次々とバフを重ね、ターゲットの検出、セグメンテーション、主要なビジュアル AI 機能の生成をすべて 1 つに統合するようになりました。

たとえば、安定拡散と SAM に基づいて、写真の椅子をソファにシームレスに置き換えることができます。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これも非常に簡単です。服と髪の色を変える :

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

このプロジェクトがリリースされるとすぐに、多くの人が「手のスピードが速すぎる!」と叫びました。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

他の人が言いました: 新垣結衣と私の新しい結婚式の写真があります。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

上記は Gounded-SAM によってもたらされる効果であり、このプロジェクトは GitHub で 1.8k スターを獲得しています。

簡単に言うと、これは画像を入力するだけで自動的に画像を検出してセグメント化するゼロショット ビジョン アプリケーションです。

この調査は、IDEA Research Institute (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Research Institute) によるもので、その創設者および会長は沈祥陽氏です。

追加のトレーニングは必要ありません

Grounded SAM は、主に Grounding DINO と SAM の 2 つのモデルで構成されています。

SAM (Segment Anything) は、Meta によって 4 日前に発表されたばかりのゼロサンプル セグメンテーション モデルです。

トレーニング プロセス中に表示されなかったオブジェクトや画像を含む、画像/ビデオ内のあらゆるオブジェクトのマスクを生成できます。

SAM が任意のプロンプトに対して有効なマスクを返せるようにすることで、プロンプトがあいまいな場合や複数のオブジェクトを指している場合でも、モデルの出力はあらゆる可能性の中で妥当なマスクになるはずです。このタスクは、モデルを事前トレーニングし、ヒントを介して一般的な下流のセグメンテーション タスクを解決するために使用されます。

モデル フレームワークは、主に画像エンコーダー、ヒント エンコーダー、および高速マスク デコーダーで構成されます。画像の埋め込みを計算した後、SAM は Web 上の任意のプロンプトに基づいて 50 ミリ秒以内にセグメンテーションを生成できます。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

Grounding DINO は、この研究チームの既存の成果です。

これは ゼロショット検出モデル で、テキストの説明を含むオブジェクト ボックスとラベルを生成できます。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

この 2 つを組み合わせると、テキストの説明を通じて画像内の任意のオブジェクトを検索し、SAM の強力なセグメンテーション機能を使用してマスクをきめ細かい方法でセグメント化できます。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これらの機能に加えて、冒頭で示した制御可能な画像生成である安定拡散の機能も追加されました。

Stable Diffusion が以前にも同様の機能を実現できたことは言及する価値があります。置き換えたい画像要素を消去し、テキスト プロンプトを入力するだけです。

今回、Grounded SAM は手動選択のステップを保存し、テキストの説明を通じて直接制御できます。

さらに、BLIP (Bootstrapping Language-Image Pre-training) と組み合わせて、画像のタイトルを生成し、ラベルを抽出し、オブジェクト ボックスとマスクを生成します。

現在、さらに興味深い機能が開発中です。

例: キャラクターの拡張: 服の変更、髪の色、肌の色など。

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像


ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

#具体的な消費方法もGitHub で提供されます。プロジェクトには Python 3.8 以降、pytorch 1.7 以降、torchvision 0.8 以降が必要であり、関連する依存関係がインストールされている必要があります。具体的な内容については、GitHub プロジェクト ページをご覧ください。

研究チームは、IDEA Research Institute (広東・香港・マカオ大湾区デジタル経済研究所) の出身です。

公開情報によると、同研究所は人工知能、デジタル経済産業、最先端技術に関する国際的な革新的な研究機関であることが示されています。マイクロソフト アジア研究所の元主席科学者、マイクロソフト グローバル インテリジェンス元副社長 シェン シャンヤン 博士. は創設者兼会長を務めています。

One More Thing

グラウンデッド SAM の今後の取り組みについて、チームはいくつかの展望を持っています:

  • 画像を自動的に生成して新しいデータ セットを形成する
  • セグメンテーションの事前トレーニングを備えた強力な基本モデル
  • (チャット-)GPT
  • と連携して、画像ラベル、ボックス、マスクを自動的に生成するパイプラインを形成し、新しい画像を生成できます。

このプロジェクトのチーム メンバーの多くは、Zhihu の AI 分野で積極的に回答していることを言及する価値があります。今回は、Zhihu で Grounded SAM に関する質問にも回答しました。コンテンツ、興味のある子供たち質問するメッセージを残してください~

ビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

以上がビジュアルAI機能を統合!中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート