GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます-AI-php.cn

ホームページ

テクノロジー周辺機器

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

王林

Dec 14, 2023 pm 10:45 PM

データ電車

新しい GTA ゲームのトレーラーを見たことがありますか?この予告編は3つのギネス世界記録を更新し、再生回数は1億回を超えていると言われています。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

3 人の AI 巨人が「グランドセフトオート」ゲームでも役割を果たすことができると言ったら、まだわかりますか?彼らは離れていますか？

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

AI ビッグ 3: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。

この集合写真は Tencent の FaceStudio AI モデルを使用して合成され、GTA スタイルの効果が示されています。この AI モデルの独自性は、広く使用されている「AI 写真」技術をより高いレベルに押し上げる優れた文字認識にあります

人工知能技術の急速な発展の中で、今日、AI写真撮影は、AI テクノロジーの応用の一般的な方向となっています。 AI 画像アプリケーションの分野では、Miaoya Camera などの AI 写真製品が大きな可能性と人気を示しています。 Miaoya Camera は、発売からわずか数週間でソーシャルメディアで多くの注目を集め、その急速な成長はこの市場の大きな可能性を浮き彫りにしています。それにも関わらず、多くのAI写真撮影製品には依然として一定の技術的制限があり、例えば、差の大きい複数の写真をアップロードする必要があり、合成効果を得るまでに長時間待つ必要があり、ユーザーエクスペリエンスに影響を与えることは間違いありません。

人工知能が主導するこの画像イノベーションの波において、テンセントの最新の研究結果 FaceStudio は、さらなる技術的進歩を示しています。この研究は、ポートレートを迅速に合成することに焦点を当てているだけでなく、キャラクターの独自性と認識を維持しながら、美的ニーズを満たすためにポートレートのアイデンティティ情報を保持することにも重点を置いています。オープンソースアルゴリズム StableDiffusion の核となる利点を継承するだけでなく、複数の主要な機能に革新的な改善が加えられています。最も目を引くのは、特に複数人の写真や様式化された画像の処理において、画像生成にハイブリッドガイダンスを使用できることです。

FaceStudio の中核テクノロジーは、その様式化された特性にあります。個人のアイデンティティ特性を犠牲にすることなく画像合成を実現できます。従来のAI画像合成技術では、見た目の美しさを追求する一方で、文字の独自性や認識性が犠牲になることが多かった。しかし、FaceStudio は高度なハイブリッドガイダンスメカニズムを通じて、画像生成時にテキストキュー、スタイル画像、アイデンティティ画像を同時に考慮することができるため、個々の特性を維持しながら多様なスタイルの転送を実現します。これはテクノロジーにおける大きな進歩であるだけでなく、より豊富でパーソナライズされた画像合成オプションをユーザーに提供します。

さらに、FaceStudio の独自のマルチアイデンティティクロスアテンションメカニズムにより、複数の人物が含まれる画像の処理が特に優れています。従来の方法では、このような画像を処理する際に、各人の特徴を正確に区別して維持する際に問題が発生することがよくあります。しかし、FaceStudio のこの仕組みは、さまざまなアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性と全体的なスタイルの調整を維持するのに優れています。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio は、顔関連のさまざまな興味深いアプリケーションをサポートします。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

論文アドレス: https://arxiv.org/abs/2312.02663
ホームページアドレス: https://icoz69.github .io/facestudio/

#メソッドの概要

ハイブリッドブートストラップ設計#FaceStudio の中核機能の 1 つは、ハイブリッドブート設計です。チームは、モデルが画像とテキストの両方のキューを同時に受信できるようにする独自のアプローチを使用し、それによって特定のアイデンティティ特性を持つ画像を生成しました。イメージプロンプトベースのブートモジュールには 2 つのサブモジュールが含まれています:

画像ガイドモジュール: この部分では、FaceStudio は CLIP ビジュアルエンコーダーを使用して人間の画像を処理します。これらの画像は多くの場合様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダは、これらの画像から複雑なスタイルの特徴を抽出できます。
アイデンティティ認識モジュール: 画像ガイダンスモジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の構造、表情、その他の固有の生体情報などの主要なアイデンティティ特徴を顔画像から抽出することです。

様式化された画像の視覚的特徴と顔画像のアイデンティティ特徴を抽出した後、2 つの特徴セットが融合されます。このステップは、両方の機能を組み合わせて包括的なガイダンス機能を作成する線形レイヤーによって実行されます。この方法の利点は、キャラクターのアイデンティティを保持するだけでなく、特定のスタイルとコンテンツを画像生成プロセスに組み込めることです。

FaceStudio には画像ガイダンス機能があるだけではありません。テキストガイダンス機能を統合。この機能は、事前トレーニングされた PriorTransformer モデルを使用して実現されます。このモデルは、CLIP テキスト特徴を対応する CLIP 視覚特徴にマッピングできます。次に、画像プロンプトガイダンスモジュールと同様に、これらの視覚機能は ID 認識モジュールの機能と組み合わされて、テキストプロンプトに応答できる包括的なガイダンス機能を形成します。最後に、2 つのプロンプト機能が重み付けされ、融合されてハイブリッドガイダンスが実現されます。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

書き直す必要がある内容は次のとおりです: Facebook Studio アーキテクチャ図

複数人物の画像合成

Tencent チームが開発した FaceStudio フレームワークには、が鍵イノベーションは「複数人物画像の処理」の部分です。このセクションでは、複数の人物のポートレートを 1 つの画像に合成して、各人物が最終画像で独自のアイデンティティを維持できるようにすることに焦点を当てます。複数の人物が含まれる画像に直面する場合、FaceStudio は特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各文字領域の特徴が対応する ID 情報のみにアクセスすることが保証されます。これは、モデルが各キャラクターのアイデンティティを正確に制御し、最終画像に正しく表示されることを保証できることを意味します。この正確な制御を実現するために、Tencent チームはキャラクターインスタンスセグメンテーションモデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する識別特徴と関連付けることができます。このようにして、モデルは画像を合成するときに各キャラクターのアイデンティティ情報が正しく導かれることを保証できます

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio とベースラインアルゴリズムの比較複数人物の画像生成について

トレーニング戦略

##Tencent チームは、人間の画像の再構成に基づいて FaceStudio の手法を設計しました。 -ターゲットを絞ったトレーニング戦略。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像への入力として使用し、同時に同じ画像からトリミングされた顔をアイデンティティへの入力として使用します。このようにして、モデルは、誘導画像を生成する際に、人の身元をより正確に保存できます。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニングデータとしてポートレートのみに依存し、テキストアノテーションを必要としないため、アノテーション付きデータへの依存度が大幅に軽減されます。さまざまなスタイルのポートレートに適切に適応できます。

結果表示

FaceStudio は、顔の類似性とポートレートの生成時間を評価することによって表示され、その独自の利点が得られます。実験結果によると、FaceStudio では 1 枚のポートレートを生成するのに 4 秒もかかりませんが、最適化に基づく人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio はポートレートの特徴をよりよく保持し、顔の類似性が向上します。実験結果は次のように比較されます:

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

研究者らは、FaceStudio と現在の最良のポートレート生成モデルアルゴリズムを比較しました。比較のため、同じ画像をサンプルとして使用しました。比較結果は、FaceStudio がほぼすべてのサンプルでより良い、または同じレベルの結果を達成していることを示しています。これは、FaceStudio が強力な堅牢性と汎用化パフォーマンスを備えていることをさらに証明しています。具体的な比較結果は以下のとおりです。

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#さらに、FaceStudo の実験では、アイデンティティ混合やテキスト画像混合のガイド付き生成など、さまざまなユニークな顔画像生成アプリケーションが実証されました

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

##アイデンティティ混合画像生成実験

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

テキストと画像を混合したガイド付き画像生成の実験

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

#FaceStudio によって生成されたポートレートサンプルにはさまざまなスタイルがあります

概要

要約すると、FaceStudioの登場は、パーソナライズされた画像生成の分野における大きな進歩を示しています。キャラクターのアイデンティティを維持しながら、豊富なスタイル設定とテキスト駆動の画像生成オプションを提供します。この機能は、芸術作品やエンターテイメント業界にとって大きな価値があるだけでなく、広告、デジタルメディア制作、パーソナライズされたコンテンツ制作などの分野でも重要な役割を果たす可能性があります。画像のアイデンティティとスタイルを正確に制御することで、FaceStudio は画像生成テクノロジーの将来の発展に新たな道を切り開き、この分野の革新と変化を先導します

以上がGTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7460

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何？ズートピアは国産AIによって実現するのか？ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles

GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック