新しい GTA ゲームのトレーラーを見たことがありますか?この予告編は3つのギネス世界記録を更新し、再生回数は1億回を超えていると言われています。
3 人の AI 巨人が「グランド セフト オート」ゲームでも役割を果たすことができると言ったら、まだわかりますか?彼らは離れていますか?
AI ビッグ 3: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。
この集合写真は Tencent の FaceStudio AI モデルを使用して合成され、GTA スタイルの効果が示されています。この AI モデルの独自性は、広く使用されている「AI 写真」技術をより高いレベルに押し上げる優れた文字認識にあります
人工知能技術の急速な発展の中で、今日、AI写真撮影は、AI テクノロジーの応用の一般的な方向となっています。 AI 画像アプリケーションの分野では、Miaoya Camera などの AI 写真製品が大きな可能性と人気を示しています。 Miaoya Camera は、発売からわずか数週間でソーシャル メディアで多くの注目を集め、その急速な成長はこの市場の大きな可能性を浮き彫りにしています。それにも関わらず、多くのAI写真撮影製品には依然として一定の技術的制限があり、例えば、差の大きい複数の写真をアップロードする必要があり、合成効果を得るまでに長時間待つ必要があり、ユーザーエクスペリエンスに影響を与えることは間違いありません。
人工知能が主導するこの画像イノベーションの波において、テンセントの最新の研究結果 FaceStudio は、さらなる技術的進歩を示しています。この研究は、ポートレートを迅速に合成することに焦点を当てているだけでなく、キャラクターの独自性と認識を維持しながら、美的ニーズを満たすためにポートレートのアイデンティティ情報を保持することにも重点を置いています。オープンソース アルゴリズム StableDiffusion の核となる利点を継承するだけでなく、複数の主要な機能に革新的な改善が加えられています。最も目を引くのは、特に複数人の写真や様式化された画像の処理において、画像生成にハイブリッド ガイダンスを使用できることです。
FaceStudio の中核テクノロジーは、その様式化された特性にあります。個人のアイデンティティ特性を犠牲にすることなく画像合成を実現できます。従来のAI画像合成技術では、見た目の美しさを追求する一方で、文字の独自性や認識性が犠牲になることが多かった。しかし、FaceStudio は高度なハイブリッド ガイダンス メカニズムを通じて、画像生成時にテキスト キュー、スタイル画像、アイデンティティ画像を同時に考慮することができるため、個々の特性を維持しながら多様なスタイルの転送を実現します。これはテクノロジーにおける大きな進歩であるだけでなく、より豊富でパーソナライズされた画像合成オプションをユーザーに提供します。
さらに、FaceStudio の独自のマルチアイデンティティ クロスアテンション メカニズムにより、複数の人物が含まれる画像の処理が特に優れています。従来の方法では、このような画像を処理する際に、各人の特徴を正確に区別して維持する際に問題が発生することがよくあります。しかし、FaceStudio のこの仕組みは、さまざまなアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性と全体的なスタイルの調整を維持するのに優れています。
#FaceStudio は、顔関連のさまざまな興味深いアプリケーションをサポートします。
ハイブリッド ブートストラップ設計#FaceStudio の中核機能の 1 つは、ハイブリッド ブート設計です。チームは、モデルが画像とテキストの両方のキューを同時に受信できるようにする独自のアプローチを使用し、それによって特定のアイデンティティ特性を持つ画像を生成しました。イメージ プロンプト ベースのブート モジュールには 2 つのサブモジュールが含まれています:
様式化された画像の視覚的特徴と顔画像のアイデンティティ特徴を抽出した後、2 つの特徴セットが融合されます。このステップは、両方の機能を組み合わせて包括的なガイダンス機能を作成する線形レイヤーによって実行されます。この方法の利点は、キャラクターのアイデンティティを保持するだけでなく、特定のスタイルとコンテンツを画像生成プロセスに組み込めることです。
FaceStudio には画像ガイダンス機能があるだけではありません。テキストガイダンス機能を統合。この機能は、事前トレーニングされた PriorTransformer モデルを使用して実現されます。このモデルは、CLIP テキスト特徴を対応する CLIP 視覚特徴にマッピングできます。次に、画像プロンプト ガイダンス モジュールと同様に、これらの視覚機能は ID 認識モジュールの機能と組み合わされて、テキスト プロンプトに応答できる包括的なガイダンス機能を形成します。最後に、2 つのプロンプト機能が重み付けされ、融合されてハイブリッド ガイダンスが実現されます。
書き直す必要がある内容は次のとおりです: Facebook Studio アーキテクチャ図
複数人物の画像合成
Tencent チームが開発した FaceStudio フレームワークには、が鍵 イノベーションは「複数人物画像の処理」の部分です。このセクションでは、複数の人物のポートレートを 1 つの画像に合成して、各人物が最終画像で独自のアイデンティティを維持できるようにすることに焦点を当てます。複数の人物が含まれる画像に直面する場合、FaceStudio は特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各文字領域の特徴が対応する ID 情報のみにアクセスすることが保証されます。これは、モデルが各キャラクターのアイデンティティを正確に制御し、最終画像に正しく表示されることを保証できることを意味します。この正確な制御を実現するために、Tencent チームはキャラクター インスタンス セグメンテーション モデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する識別特徴と関連付けることができます。このようにして、モデルは画像を合成するときに各キャラクターのアイデンティティ情報が正しく導かれることを保証できます
#FaceStudio とベースライン アルゴリズムの比較複数人物の画像生成について
トレーニング戦略
##Tencent チームは、人間の画像の再構成に基づいて FaceStudio の手法を設計しました。 -ターゲットを絞ったトレーニング戦略。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像への入力として使用し、同時に同じ画像からトリミングされた顔をアイデンティティへの入力として使用します。このようにして、モデルは、誘導画像を生成する際に、人の身元をより正確に保存できます。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニング データとしてポートレートのみに依存し、テキスト アノテーションを必要としないため、アノテーション付きデータへの依存度が大幅に軽減されます。さまざまなスタイルのポートレートに適切に適応できます。結果表示
#さらに、FaceStudo の実験では、アイデンティティ混合やテキスト画像混合のガイド付き生成など、さまざまなユニークな顔画像生成アプリケーションが実証されました
##アイデンティティ混合画像生成実験
テキストと画像を混合したガイド付き画像生成の実験
#FaceStudio によって生成されたポートレート サンプルにはさまざまなスタイルがあります概要
以上がGTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。