GTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができます
新しい GTA ゲームのトレーラーを見たことがありますか?この予告編は3つのギネス世界記録を更新し、再生回数は1億回を超えていると言われています。
3 人の AI 巨人が「グランド セフト オート」ゲームでも役割を果たすことができると言ったら、まだわかりますか?彼らは離れていますか?
AI ビッグ 3: ヤン・ルカン、ジェフリー・ヒントン、ヨシュア・ベンジオ。
この集合写真は Tencent の FaceStudio AI モデルを使用して合成され、GTA スタイルの効果が示されています。この AI モデルの独自性は、広く使用されている「AI 写真」技術をより高いレベルに押し上げる優れた文字認識にあります
人工知能技術の急速な発展の中で、今日、AI写真撮影は、AI テクノロジーの応用の一般的な方向となっています。 AI 画像アプリケーションの分野では、Miaoya Camera などの AI 写真製品が大きな可能性と人気を示しています。 Miaoya Camera は、発売からわずか数週間でソーシャル メディアで多くの注目を集め、その急速な成長はこの市場の大きな可能性を浮き彫りにしています。それにも関わらず、多くのAI写真撮影製品には依然として一定の技術的制限があり、例えば、差の大きい複数の写真をアップロードする必要があり、合成効果を得るまでに長時間待つ必要があり、ユーザーエクスペリエンスに影響を与えることは間違いありません。
人工知能が主導するこの画像イノベーションの波において、テンセントの最新の研究結果 FaceStudio は、さらなる技術的進歩を示しています。この研究は、ポートレートを迅速に合成することに焦点を当てているだけでなく、キャラクターの独自性と認識を維持しながら、美的ニーズを満たすためにポートレートのアイデンティティ情報を保持することにも重点を置いています。オープンソース アルゴリズム StableDiffusion の核となる利点を継承するだけでなく、複数の主要な機能に革新的な改善が加えられています。最も目を引くのは、特に複数人の写真や様式化された画像の処理において、画像生成にハイブリッド ガイダンスを使用できることです。
FaceStudio の中核テクノロジーは、その様式化された特性にあります。個人のアイデンティティ特性を犠牲にすることなく画像合成を実現できます。従来のAI画像合成技術では、見た目の美しさを追求する一方で、文字の独自性や認識性が犠牲になることが多かった。しかし、FaceStudio は高度なハイブリッド ガイダンス メカニズムを通じて、画像生成時にテキスト キュー、スタイル画像、アイデンティティ画像を同時に考慮することができるため、個々の特性を維持しながら多様なスタイルの転送を実現します。これはテクノロジーにおける大きな進歩であるだけでなく、より豊富でパーソナライズされた画像合成オプションをユーザーに提供します。
さらに、FaceStudio の独自のマルチアイデンティティ クロスアテンション メカニズムにより、複数の人物が含まれる画像の処理が特に優れています。従来の方法では、このような画像を処理する際に、各人の特徴を正確に区別して維持する際に問題が発生することがよくあります。しかし、FaceStudio のこの仕組みは、さまざまなアイデンティティの特徴情報を画像の対応する部分に正確にマッピングすることができ、各キャラクターの独自性と全体的なスタイルの調整を維持するのに優れています。
#FaceStudio は、顔関連のさまざまな興味深いアプリケーションをサポートします。
- 論文アドレス: https://arxiv.org/abs/2312.02663
- ホームページ アドレス: https://icoz69.github .io/facestudio/
ハイブリッド ブートストラップ設計#FaceStudio の中核機能の 1 つは、ハイブリッド ブート設計です。チームは、モデルが画像とテキストの両方のキューを同時に受信できるようにする独自のアプローチを使用し、それによって特定のアイデンティティ特性を持つ画像を生成しました。イメージ プロンプト ベースのブート モジュールには 2 つのサブモジュールが含まれています:
- 画像ガイド モジュール: この部分では、FaceStudio は CLIP ビジュアル エンコーダーを使用して人間の画像を処理します。これらの画像は多くの場合様式化されており、色、テクスチャ、構成などの豊富な視覚情報が含まれています。 CLIP エンコーダは、これらの画像から複雑なスタイルの特徴を抽出できます。
- アイデンティティ認識モジュール: 画像ガイダンス モジュールと並行して、Tencent チームは、Arcface モデルを使用して個々の顔画像を処理するアイデンティティ認識モジュールも設計しました。その主な目的は、顔の構造、表情、その他の固有の生体情報などの主要なアイデンティティ特徴を顔画像から抽出することです。
様式化された画像の視覚的特徴と顔画像のアイデンティティ特徴を抽出した後、2 つの特徴セットが融合されます。このステップは、両方の機能を組み合わせて包括的なガイダンス機能を作成する線形レイヤーによって実行されます。この方法の利点は、キャラクターのアイデンティティを保持するだけでなく、特定のスタイルとコンテンツを画像生成プロセスに組み込めることです。
FaceStudio には画像ガイダンス機能があるだけではありません。テキストガイダンス機能を統合。この機能は、事前トレーニングされた PriorTransformer モデルを使用して実現されます。このモデルは、CLIP テキスト特徴を対応する CLIP 視覚特徴にマッピングできます。次に、画像プロンプト ガイダンス モジュールと同様に、これらの視覚機能は ID 認識モジュールの機能と組み合わされて、テキスト プロンプトに応答できる包括的なガイダンス機能を形成します。最後に、2 つのプロンプト機能が重み付けされ、融合されてハイブリッド ガイダンスが実現されます。
書き直す必要がある内容は次のとおりです: Facebook Studio アーキテクチャ図
複数人物の画像合成
Tencent チームが開発した FaceStudio フレームワークには、が鍵 イノベーションは「複数人物画像の処理」の部分です。このセクションでは、複数の人物のポートレートを 1 つの画像に合成して、各人物が最終画像で独自のアイデンティティを維持できるようにすることに焦点を当てます。複数の人物が含まれる画像に直面する場合、FaceStudio は特別な注意メカニズムを使用します。このメカニズムにより、画像合成プロセス中に、各文字領域の特徴が対応する ID 情報のみにアクセスすることが保証されます。これは、モデルが各キャラクターのアイデンティティを正確に制御し、最終画像に正しく表示されることを保証できることを意味します。この正確な制御を実現するために、Tencent チームはキャラクター インスタンス セグメンテーション モデルを使用しました。このモデルは、画像内のさまざまな人物を識別し、各人物の領域を対応する識別特徴と関連付けることができます。このようにして、モデルは画像を合成するときに各キャラクターのアイデンティティ情報が正しく導かれることを保証できます
#FaceStudio とベースライン アルゴリズムの比較複数人物の画像生成について
トレーニング戦略
##Tencent チームは、人間の画像の再構成に基づいて FaceStudio の手法を設計しました。 -ターゲットを絞ったトレーニング戦略。このアプローチでは、顔の領域がマスクされた元の画像を様式化された人間の画像への入力として使用し、同時に同じ画像からトリミングされた顔をアイデンティティへの入力として使用します。このようにして、モデルは、誘導画像を生成する際に、人の身元をより正確に保存できます。既存の生成モデルのトレーニング方法とは異なり、この方法はトレーニング データとしてポートレートのみに依存し、テキスト アノテーションを必要としないため、アノテーション付きデータへの依存度が大幅に軽減されます。さまざまなスタイルのポートレートに適切に適応できます。結果表示
FaceStudio は、顔の類似性とポートレートの生成時間を評価することによって表示され、その独自の利点が得られます。実験結果によると、FaceStudio では 1 枚のポートレートを生成するのに 4 秒もかかりませんが、最適化に基づく人気のアルゴリズム DreamBooth では最大 6 分かかります。同時に、FaceStudio はポートレートの特徴をよりよく保持し、顔の類似性が向上します。実験結果は次のように比較されます:
#さらに、FaceStudo の実験では、アイデンティティ混合やテキスト画像混合のガイド付き生成など、さまざまなユニークな顔画像生成アプリケーションが実証されました
##アイデンティティ混合画像生成実験
テキストと画像を混合したガイド付き画像生成の実験
概要
要約すると、FaceStudioの登場は、パーソナライズされた画像生成の分野における大きな進歩を示しています。キャラクターのアイデンティティを維持しながら、豊富なスタイル設定とテキスト駆動の画像生成オプションを提供します。この機能は、芸術作品やエンターテイメント業界にとって大きな価値があるだけでなく、広告、デジタル メディア制作、パーソナライズされたコンテンツ制作などの分野でも重要な役割を果たす可能性があります。画像のアイデンティティとスタイルを正確に制御することで、FaceStudio は画像生成テクノロジーの将来の発展に新たな道を切り開き、この分野の革新と変化を先導します
以上がGTA6のトレーラーは10億回以上再生されており、AIの巨人はすぐにGTAのギャングの役割に入ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
