メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します-AI-php.cn

Meta の「すべてを分割する」モデルが登場した後、業界の人々はすでに CV など存在しないと叫んでいます。

SAM がリリースされた翌日、国内チームはこれをベースにした進化版「Grounded-SAM」を作成しました。

メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します

#注: プロジェクトのロゴは、チームが Midjourney を 1 時間使用して作成したものです。 #Grounded-SAM は、SAM と BLIP および安定拡散を統合し、画像の「分割」、「検出」、「生成」の 3 つの機能を 1 つに統合し、最も強力なゼロショットビジュアルアプリケーションとなります。

ネチズンは、巻き毛すぎると表現しました。

Google Brain の研究科学者であり、ウォータールー大学のコンピュータサイエンス助教授である Wenhu Chen 氏は、「これは速すぎます。」

AI のボス Shen Xiangyang も、この最新プロジェクトをみんなに勧めました:

Grounded-Segment-Anything : 画像とテキストを入力すると、あらゆるものを自動的に検出、セグメント化、生成します。エッジのセグメンテーションはさらに改善できます。

これまでのところ、このプロジェクトは GitHub で 2,000 個のスターを獲得しています。

すべてを検出、すべてを分割、すべてを生成

先週、SAM のリリースで CV が歓迎されましたGPT-3 の瞬間がやって来ます。 Meta AI も、これが史上初の基本的な画像セグメンテーションモデルであると主張しています。

このモデルは、統合フレームワークプロンプトエンコーダーで点、境界ボックス、文を指定し、ワンクリックで任意のオブジェクトを直接セグメント化できます。

SAM には幅広い汎用性があります。つまり、ゼロサンプルで移行できる機能があり、これで十分な機能をカバーできます。追加のトレーニングにより、水中写真や細胞顕微鏡などの新しいイメージング領域ですぐに使用できます。メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します

#SAM は非常に強力であることがわかります。

現在、国内の研究者はこのモデルに基づいて新しいアイデアを考案し、強力なゼロサンプルターゲット検出器 Grounding DINO と組み合わせることで、テキスト入力による検出とセグメント化が可能になります。。

Grounding DINO の強力なゼロサンプル検出機能を使用すると、Grounded SAM はテキストの説明を通じて画像内の任意のオブジェクトを検索し、SAM の強力なセグメンテーション機能を使用してオブジェクトをセグメント化できます。きめ細かいやり方。

最後に、安定拡散を使用して、セグメント化された領域に制御可能なテキストと画像を生成することもできます。

グラウンデッド SAM の具体的な実践では、研究者らはセグメントエニシングと 3 つの強力なゼロサンプルモデルを組み合わせて自動ラベル付けシステムプロセスを構築し、非常に印象的な結果を実証しました。

#このプロジェクトは、次のモデルを組み合わせています:

· BLIP: 強力な画像注釈モデル

· Grounding DINO: 最先端のゼロショット検出器

· セグメント-何でも: 強力なゼロ-ショットセグメンテーションモデル

· 安定拡散: 優れた生成モデル

すべてのモデルを組み合わせることができます使用することも、独立して使用することもできます。強力なビジュアルワークフローモデルを構築します。ワークフロー全体には、すべてを検出し、すべてをセグメント化し、すべてを生成する機能があります。

システムの機能は次のとおりです。

BLIP グラウンデッド-SAM=自動ラベラー

BLIP モデルを使用してタイトルを生成し、タグを抽出し、Ground-SAM を使用してボックスとマスクを生成します:

#· 半自動アノテーションシステム: 検出テキストを入力し、正確なボックス注釈とマスク注釈を提供します。

· 完全自動アノテーションシステム:

最初に BLIP を使用します。モデル入力画像に対して信頼性の高い注釈を生成し、Grounding DINO に注釈内のエンティティを検出させ、続いて SAM でボックスキューのインスタンスセグメンテーションを行います。

安定拡散のグラウンデッド-SAM=Data Factory

· 新しいデータを生成するデータファクトリとして使用:

拡散修復モデルを使用して、マスクに基づいて新しいデータを生成できます。

Segment Anything HumanEditing

このブランチでは、著者は次を使用します。セグメント人の髪や顔を編集するためのもの。

· SAM ヘアエディター

· SAM ファッション編集者

メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します ##著者は、Grounded-SAM モデルについて考えられる将来の研究の方向性をいくつか提案しました。

##新しいデータセットを構築するための画像の自動生成、セグメンテーション用に事前トレーニングされたより強力な基本モデル、(Chat-)GPT モデルとの連携、画像に自動的に注釈を付けるための完全なパイプライン (境界ボックスとマスクを含む)そして新しい画像を生成します。

著者紹介

Grounded-SAM プロジェクトの研究者の 1 人は、清華大学コンピューターサイエンス学部博士課程 3 年生の Liu Shilong です。

彼は最近、彼と彼のチームが GitHub 上で作成した最新プロジェクトを紹介し、それはまだ改良中であると述べました。

現在、Liu Shilong は、広東・香港・マカオ大湾区デジタル経済研究所 (IDEA 研究所) のコンピュータービジョンおよびロボット研究センターでインターンをしています。 Zhang Lei 教授が指導しており、彼の研究の方向性には、ターゲット検出とマルチモーダル学習が含まれます。

これに先立ち、彼は 2020 年に清華大学で生産工学の学士号を取得し、2019 年には Megvii で一定期間インターンをしていました。

個人ホームページ: http://www.lsl.zone/

ところで、Liu Shilong 今年3月に発売された目標探知モデルGrounding DINOの作品でもあります。

さらに、彼の論文のうち 4 件が CVPR 2023 に、2 件の論文が ICLR 2023 に、1 件の論文が AAAI 2023 にそれぞれ採択されました。

論文アドレス: https://arxiv.org/pdf/2303.05499.pdf ##Liu Shilong が言及したビッグボスである Ren Tianhe 氏は、現在 IDEA Research Institute でコンピュータビジョンアルゴリズムエンジニアとして働いています。彼は Zhang Lei 教授の指導も受けています。彼の主な研究方向はターゲット検出とマルチモダリティです。

メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します # さらに、このプロジェクトの共同研究者には、中国科学院大学博士課程 3 年生の Li Kunchang 氏が含まれます。方向性はビデオ理解とマルチモーダル学習、IDEA 研究所のコンピュータビジョンおよびロボティクス研究センターのインターンで、主な研究方向は生成モデルである Cao He 氏、Alibaba Cloud のシニアアルゴリズムエンジニアである Chen Jiayu 氏です。

メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します Ren Tianhe、Liu Shilong

# をインストールして実行します##プロジェクトでは、Python 3.8 以降、pytorch 1.7 以降、torchvision 0.8 以降のインストールが必要です。さらに、著者は CUDA をサポートする PyTorch と TorchVision をインストールすることを強く推奨します。

セグメントを何でも取り付けます:

python -m pip install -e segment_anything

ログイン後にコピー

アースDINOを取り付けます:

python -m pip install -e GroundingDINO

ログイン後にコピー

ディフューザーを取り付けます:

pip install --upgrade diffusers[torch]

ログイン後にコピー

マスクの後処理、COCO 形式でのマスクの保存、サンプルノートブック、ONNX 形式でのモデルのエクスポートに必要なオプションの依存関係をインストールします。同時に、プロジェクトではサンプルノートブックを実行するために jupyter も必要です。

pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel

ログイン後にコピー

Grounding DINO デモ

groundingdino チェックポイントをダウンロード:

cd Grounded-Segment-Anything
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

ログイン後にコピー

デモを実行:

export CUDA_VISIBLE_DEVICES=0
python grounding_dino_demo.py 
--config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py 
--grounded_checkpoint groundingdino_swint_ogc.pth 
--input_image assets/demo1.jpg 
--output_dir "outputs" 
--box_threshold 0.3 
--text_threshold 0.25 
--text_prompt "bear" 
--device "cuda"

ログイン後にコピー

モデル予測の視覚化は次のように出力ディレクトリに保存されます:

#Grounded-Segment- Anything BLIP デモンストレーション

擬似ラベルの自動生成は簡単です:

1. BLIP (または他のラベル付けモデル) を使用してラベルを生成します。

2. 注釈からタグを抽出し、ChatGPT を使用して複雑になる可能性のある文を処理します。

3. Ground-Segment-Anything を使用してボックスとマスクを生成します。

export CUDA_VISIBLE_DEVICES=0
python automatic_label_demo.py 
--config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py 
--grounded_checkpoint groundingdino_swint_ogc.pth 
--sam_checkpoint sam_vit_h_4b8939.pth 
--input_image assets/demo3.jpg 
--output_dir "outputs" 
--openai_key your_openai_key 
--box_threshold 0.25 
--text_threshold 0.2 
--iou_threshold 0.5 
--device "cuda"

ログイン後にコピー

伪标签和模型预测可视化将保存在output_dir中，如下所示：

Grounded-Segment-Anything+Inpainting演示

CUDA_VISIBLE_DEVICES=0
python grounded_sam_inpainting_demo.py 
--config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py 
--grounded_checkpoint groundingdino_swint_ogc.pth 
--sam_checkpoint sam_vit_h_4b8939.pth 
--input_image assets/inpaint_demo.jpg 
--output_dir "outputs" 
--box_threshold 0.3 
--text_threshold 0.25 
--det_prompt "bench" 
--inpaint_prompt "A sofa, high quality, detailed" 
--device "cuda"

ログイン後にコピー

Grounded-Segment-Anything+Inpainting Gradio APP

python gradio_app.py

ログイン後にコピー

作者在此提供了可视化网页，可以更方便的尝试各种例子。

网友评论

对于这个项目logo，还有个深层的含义：

一只坐在地上的马赛克风格的熊。坐在地面上是因为ground有地面的含义，然后分割后的メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します可以认为是一种马赛克风格，而且马塞克谐音mask，之所以用熊作为logo主体，是因为作者主要示例的メタ「ディバイド・エブリシング」の超進化版が登場！ IDEA は国内トップチームを率いて、あらゆるものを検出、セグメント化、生成し、2,000 個のスターを獲得します是熊。