4 月初旬、Meta は史上初の基本的な画像セグメンテーション モデルである SAM (Segment Anything Model) [1] をリリースしました。セグメンテーション モデルとして、SAM は強力な機能を備えており、非常に使いやすいです。たとえば、ユーザーが対応するオブジェクトをクリックして選択するだけで、オブジェクトはすぐにセグメント化され、セグメント化の結果は非常に正確です。 4 月 15 日の時点で、SAM の GitHub リポジトリのスター数は 26,000 です。
このような強力な「すべてを分割」モデルをうまく活用し、より実際的なニーズのあるアプリケーション シナリオに拡張する方法が重要です。 。たとえば、SAM が実際の画像修復 (Image Inpainting) タスクに遭遇すると、どのような火花が現れるでしょうか?
中国科学技術大学と東方工業大学の研究チームは、驚くべき答えを出しました。 SAM に基づいて、彼らは「Inpaint Anything」(IA) モデルを提案しました。従来の画像修復モデルとは異なり、IA モデルはマスクを生成するための詳細な操作を必要とせず、ワンクリックで選択したオブジェクトのマーク付けをサポートします。IA はすべてを削除し、すべての内容を塗りつぶすことができます。何でも塗りつぶし) および任意のものを置換 、ターゲットの削除、ターゲットの塗りつぶし、背景の置換など、さまざまな一般的な画像修復アプリケーション シナリオをカバーしています。
研究者らは初めてマスクフリーの画像修復を試み、画像パッチングにおける「クリックと塗りつぶし」の新しいパラダイムを構築しました。彼らは Inpaint Anything (IA) と呼んでいます。 IA の背後にある中心的なアイデアは、さまざまなモデルの利点を組み合わせて、強力でユーザーフレンドリーな画像修復システムを構築することです。。 IA には 3 つの主な機能があります: (i) 何でも削除: ユーザーは削除したいオブジェクトをクリックするだけで、IA はトレースを残さずにオブジェクトを削除して、効率的なオブジェクトの削除を実現します。 「魔法の消去」; (ii) 何でも入力: 同時に、ユーザーはテキスト プロンプト (テキスト プロンプト) を通じてオブジェクトに何を入力したいかをさらに IA に伝えることができ、IA は埋め込み AIGC (AI 生成) を駆動します。コンテンツ) モデル (Stable Diffusion [2] など) は、対応するコンテンツで満たされたオブジェクトを生成し、自由に「コンテンツ作成」を実現します。(iii) 何でも置換: ユーザーは、保持する必要があるオブジェクトをクリックして選択し、テキスト プロンプトを使用することもできます。オブジェクトの背景を何に置き換えたいかを IA に伝えると、オブジェクトの背景を指定されたコンテンツに置き換えて、鮮やかな「環境変換」を実現できます。 IA の全体的なフレームワークを以下に示します。
##Inpaint Anything (IA) 図。ユーザーは画像内の任意のオブジェクトをクリックして選択できます。 SAM [1]、LaMa [3]、安定拡散 (SD) [3] などの強力なビジョン モデルを活用することで、IA は選択したオブジェクトをスムーズに削除できます (つまり、何でも削除)。さらに、テキスト プロンプトを IA に入力することにより、ユーザーはオブジェクトに任意のコンテンツを入力したり (つまり、Fill Anything)、オブジェクトのオブジェクトを任意に置き換えたり (つまり、Replace Anything) することができます。
すべて削除します
「すべてを削除」の図 「すべてを削除」の手順は次のとおりです。 : #すべてを記入してください
##Fill Anything の図、画像で使用されているテキスト プロンプト: ベンチの上のテディベア
「Fill Anything」の手順は次のとおりです:
## すべてを置き換える図、写真で使用されているテキスト プロンプト: オフィスにいる男性「すべてを埋める」手順は次のとおりです。
ステップ 1: ユーザーが [削除するオブジェクト;
研究者のモデルは 2K 高解像度画像と任意のアスペクト比もサポートしていることは注目に値します。これにより、IA システムは、さまざまな統合環境や既存のフレームワークで効率的な移行アプリケーションを実現できます。 #すべての実験結果を削除
##実験結果をすべて入力してください
テキスト プロンプト: カメラレンズを手に持っています
#テキスト プロンプト: 海上の航空母艦
テキスト プロンプト: 道路上のスポーツカー
##テキスト プロンプト: 壁にあるピカソの絵
##すべての実験結果を置き換える#テキスト プロンプト: ブランコに座ってください
#テキスト プロンプト: 朝食
#テキスト プロンプト: 田舎道の中心にあるバス、夏
テキスト プロンプト: 市内の交差点##概要
研究者らは、既存の大規模人工知能モデルをフル活用することで得られる強力な機能を実証し、「コンポーザブル人工知能」(コンポーザブルAI)の無限の可能性を明らかにするために、このような興味深いプロジェクトを立ち上げました。このプロジェクトが提案する Inpaint Anything (IA) は、オブジェクトの削除、コンテンツの塗りつぶし、シーンの置き換えなどの機能を統合した多機能の画像修復システムです (さらに多くの機能が開発中ですので、ご期待ください)。
現在、
プロジェクトは完全にオープンソースです。。最後に、誰もが Inpaint Anything (IA) を共有して宣伝することを歓迎します。IA に基づいた新しいプロジェクトがさらに増えることを楽しみにしています。将来的には、研究者らは、Inpaint Anything (IA) の可能性をさらに探求し、きめ細かい画像の切り出しや編集など、より実用的な新機能をサポートし、より現実のアプリケーションに適用する予定です。
以上が「すべてを分割する」と画像修復が一致する場合: 細かいマーキングは必要なく、オブジェクトをクリックしてオブジェクトの削除、コンテンツの充填、シーンの置換を実行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。