Yang Mi と Taylor の混合スタイル: Xiaohongshu AI が SD および ControlNet に適したスタイルを起動
今、写真を撮るのは本当に「ばかばかしいほど簡単」であると言わざるを得ません。 実際の人物がカメラに映る必要はなく、ポーズや髪型について心配する必要もありません。必要なのは自分の
画像を用意して、数回待つだけです数秒で 7 つの完全に異なるスタイルを取得できます。 :
注意深く見てください。形やポーズはすべて明確に作成されており、元のイメージが何の影響もなくまっすぐに出てきます。編集の必要性。
InstantID
と呼ばれる AI の能力です。リアルな写真に加えて、「人間以外」のものにすることもできます:
たとえば、猫の頭と猫の胴体を持っていますが、よく見ると、顔の特徴。 さまざまな仮想スタイルはもちろんのこと、
もちろん、石像を入力して直接変更することもできます:
2人の顔の融合#を実行することもできます。 ## ハイパワー オペレーション、ヤン ミーの 20% とテイラーの 80% がどのように見えるかを見てみましょう:
1 枚の写真には無制限の高品質の変換がありますが、あなたはそれを理解する必要があります。
それでは、これはどのように行われるのでしょうか?
(つまり、ベースID 埋め込みについて)
。 しかし、このテクノロジーには問題もあります。多数のモデル パラメーターの大規模な微調整が必要であるか、コミュニティが開発した事前トレーニング済みモデルとの互換性がないか、忠実度の高い顔の特徴を維持できないかのいずれかです。これらの課題を解決するために、彼らは InstantID を開発しました。
InstantID は拡散モデルに基づいており、そのプラグ アンド プレイ(プラグ アンド プレイ)
モジュールは、単一の顔画像だけを使用してさまざまな様式化された変換を巧みに処理できます。確かに。 最も注目すべき点は、一般的なテキストから画像への事前トレーニング済み拡散モデル(SD1.5、SDXLなど)とシームレスに統合でき、プラグイン。
具体的には、InstantID は 3 つの主要コンポーネントで構成されます:(1) 堅牢な意味論的な顔情報をキャプチャする ID 埋め込み;
(2) デカップリングを備えた軽量適応モジュール視覚的な手がかりとして画像を容易にするクロスアテンション; (3) IdentityNet ネットワーク、追加の空間制御を通じて参照画像の詳細な特徴をエンコードし、最終的に画像生成を完了します。業界のこれまでの成果と比較すると、InstantID にはいくつかの違いがあります。
第一に、UNet をトレーニングする必要がないため、オリジナルのテキストをそのまま使用できます。イメージ モデル生成機能に保持されており、コミュニティ内の既存の事前トレーニング済みモデルおよび ControlNet と互換性があります。
#繰り返しますが、上記の効果はすべて、1 つの参照画像だけで数秒で完了できます。
以下に示す実験は、
#以下は具体的な比較です。
比較対象は、チューニング不要の既存の SOTA メソッドです。IP-Adapter (IPA)、IP-Adapter-FaceID、および Tencent が 2 日前に作成したばかりの PhotoMaker です。
誰もがかなりの「ボリューム」であり、効果は悪くないことがわかります。しかし、注意深く比較すると、PhotoMaker と IP-Adapter-FaceID はどちらも忠実度は高いですが、テキスト コントロール機能は明らかに劣っています。悪い。
対照的に、InstantID の顔とスタイルはよりよく融合し、良好なテキスト編集性を維持しながら、より高い忠実度を実現します。
また、InsightFace Swapperモデルとの比較もありますが、どちらの方が良いと思いますか?
著者の紹介
この記事には、謎の InstantX チームからの 5 人の著者がいます (オンラインではあまり情報が見つかりません) 。
しかし、最初の人物は、小红书の Qixun Wang です。
責任著者の Wang Haofan は Xiaohongshu のエンジニアでもあり、制御可能および条件付きコンテンツ生成 (AIGC) の研究に従事しており、CMU'20 の卒業生でもあります。
以上がYang Mi と Taylor の混合スタイル: Xiaohongshu AI が SD および ControlNet に適したスタイルを起動の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません
