今、写真を撮るのは本当に「ばかばかしいほど簡単」であると言わざるを得ません。 実際の人物がカメラに映る必要はなく、ポーズや髪型について心配する必要もありません。必要なのは自分の
画像を用意して、数回待つだけです数秒で 7 つの完全に異なるスタイルを取得できます。 :
注意深く見てください。形やポーズはすべて明確に作成されており、元のイメージが何の影響もなくまっすぐに出てきます。編集の必要性。
その前に、少なくとも一日中写真スタジオで過ごしてはなりません。そうすると、私たち写真家もメイクアップアーティストもほとんど疲れ果ててしまいます。 上記は、InstantID
と呼ばれる AI の能力です。リアルな写真に加えて、「人間以外」のものにすることもできます:
たとえば、猫の頭と猫の胴体を持っていますが、よく見ると、顔の特徴。さまざまな仮想スタイルはもちろんのこと、
#スタイル 2 のように、生身の人間が直接石に変身します。像。もちろん、石像を入力して直接変更することもできます:
ちなみに、2人の顔の融合#を実行することもできます。 ## ハイパワー オペレーション、ヤン ミーの 20% とテイラーの 80% がどのように見えるかを見てみましょう:
1 枚の写真には無制限の高品質の変換がありますが、あなたはそれを理解する必要があります。
それでは、これはどのように行われるのでしょうか?
拡散モデルに基づいて、SD とシームレスに統合できます著者は、現在の画像様式化テクノロジが 1 回の前方推論のみですでにタスクを完了できることを紹介しています(つまり、ベースID 埋め込みについて)
。 しかし、このテクノロジーには問題もあります。多数のモデル パラメーターの大規模な微調整が必要であるか、コミュニティが開発した事前トレーニング済みモデルとの互換性がないか、忠実度の高い顔の特徴を維持できないかのいずれかです。これらの課題を解決するために、彼らは InstantID を開発しました。
InstantID は拡散モデルに基づいており、そのプラグ アンド プレイ(プラグ アンド プレイ)
モジュールは、単一の顔画像だけを使用してさまざまな様式化された変換を巧みに処理できます。確かに。 最も注目すべき点は、一般的なテキストから画像への事前トレーニング済み拡散モデル(SD1.5、SDXLなど)とシームレスに統合でき、プラグイン。
具体的には、InstantID は 3 つの主要コンポーネントで構成されます:(1) 堅牢な意味論的な顔情報をキャプチャする ID 埋め込み;
(2) デカップリングを備えた軽量適応モジュール視覚的な手がかりとして画像を容易にするクロスアテンション; (3) IdentityNet ネットワーク、追加の空間制御を通じて参照画像の詳細な特徴をエンコードし、最終的に画像生成を完了します。業界のこれまでの成果と比較すると、InstantID にはいくつかの違いがあります。
第一に、UNet をトレーニングする必要がないため、オリジナルのテキストをそのまま使用できます。イメージ モデル生成機能に保持されており、コミュニティ内の既存の事前トレーニング済みモデルおよび ControlNet と互換性があります。
2 つ目は、テスト時の調整が必要ないため、特定のスタイルに対して、微調整のために複数の画像を収集する必要がなく、単一の画像に対して推論を行うだけで済みます。 3 番目に、顔の忠実度が向上することに加えて、テキストの編集機能も維持されます。下の図のように、ほんの少しの言葉で、画像の性別を変更したり、スーツを変更したり、髪型や髪の色を変更したりできます。#繰り返しますが、上記の効果はすべて、1 つの参照画像だけで数秒で完了できます。
以下に示す実験は、
あと数枚の参考画像はほとんど役に立たず、1 枚の画像で十分な効果を発揮できることを証明しています。#以下は具体的な比較です。
比較対象は、チューニング不要の既存の SOTA メソッドです。IP-Adapter (IPA)、IP-Adapter-FaceID、および Tencent が 2 日前に作成したばかりの PhotoMaker です。
誰もがかなりの「ボリューム」であり、効果は悪くないことがわかります。しかし、注意深く比較すると、PhotoMaker と IP-Adapter-FaceID はどちらも忠実度は高いですが、テキスト コントロール機能は明らかに劣っています。悪い。
対照的に、InstantID の顔とスタイルはよりよく融合し、良好なテキスト編集性を維持しながら、より高い忠実度を実現します。
また、InsightFace Swapperモデルとの比較もありますが、どちらの方が良いと思いますか?
この記事には、謎の InstantX チームからの 5 人の著者がいます (オンラインではあまり情報が見つかりません) 。
しかし、最初の人物は、小红书の Qixun Wang です。
責任著者の Wang Haofan は Xiaohongshu のエンジニアでもあり、制御可能および条件付きコンテンツ生成 (AIGC) の研究に従事しており、CMU'20 の卒業生でもあります。
以上がYang Mi と Taylor の混合スタイル: Xiaohongshu AI が SD および ControlNet に適したスタイルを起動の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。