無料のパーソナライズされた学術論文推薦システム - ドイツの大学のトップビジュアルチームの「arXiv カスタマイズされたプラットフォーム」を開始
10 ミリ秒で 1 枚の画像、1 分で 6,000 枚の画像を生成します。コンセプトは何ですか?
下の写真では、AI のスーパーパワーを深く感じることができます。
画像
二次元の女性の画像によって生成されたプロンプトに新しい要素を追加し続けると、それぞれの要素がこのスタイルの絵の切り替わりも一瞬です。
写真
このような驚くべきリアルタイム画像生成速度は、カリフォルニア大学バークレー校の研究者によって提案された StreamDiffusion の結果です。つくば市などで成果をあげています。
この新しいソリューションは、100fps を超えるリアルタイムのインタラクティブな画像生成を可能にする拡散モデル プロセスです。
#写真
論文アドレス: https://arxiv.org/abs/2312.12491
オープンソース化後、StreamDiffusion は GitHub ランキングを直接独占し、3.7,000 個のスターを獲得しました。
画像
StreamDiffusion は、シーケンスのノイズ除去ではなくバッチ処理戦略を革新的に使用しており、従来の方法よりも約 1.5 倍高速です。さらに、著者が提案した新しい残差分類子なしガイダンス (RCFG) アルゴリズムは、従来の分類子なしガイダンスよりも 2.05 倍高速になります。
最も注目すべき点は、新しい方法により、RTX 4090 上で 91.07fps の画像間の生成速度を達成できることです。
画像
#将来的には、StreamDiffusion はメタバース、ビデオ ゲーム グラフィックスのレンダリング、ライブビデオストリーミングこれらのアプリケーションの高スループット要件を満たすことができます。
特に、リアルタイム画像生成は、ゲーム開発やビデオ レンダリングに携わる人々に強力な編集機能と創造的な機能を提供します。
写真
現在、さまざまな分野で普及モデルが使用されています。アプリケーションには、人間とコンピューターの対話の効率を確保するために、高スループットかつ低遅延の拡散パイプラインが必要です。
典型的な例は、拡散モデルを使用して VTuber 可能な仮想キャラクターを作成することです。ユーザー入力に流動的に応答します。
写真
高スループットとリアルタイムのインタラクション機能を向上させるために、現在の研究の方向性は主にコスト削減に焦点を当てています。反復のノイズ除去 たとえば、反復回数が 50 反復から数回、または 1 回にまで減ります。
一般的な戦略は、複数ステップの拡散モデルをいくつかのステップに洗練し、ODE を使用して拡散プロセスを再構築することです。効率を向上させるために、拡散モデルも定量化されています。
最新の論文では、研究者たちは直交方向から始めて、インタラクティブな画像生成の高スループット向けに設計されたリアルタイム拡散パイプラインである StreamDiffusion を紹介しました。
既存のモデル設計作業を StreamDiffusion と統合しながら、N ステップのノイズ除去拡散モデルを使用して高スループットを維持し、より柔軟なオプションをユーザーに提供できます
写真
リアルタイム画像生成|1列目、2列目:AIによるリアルタイム描画例、3列目:リアルタイムレンダリング3Dアバターの2Dイラストから。列 4 および 5: ライブ カメラ フィルター。 リアルタイム画像生成 | 1 列目と 2 列目は AI 支援によるリアルタイム描画の例を示し、3 列目は 3D アバターをリアルタイムでレンダリングして 2D イラストを生成するプロセスを示します。 4 番目と 5 番目の列は、リアルタイム カメラ フィルターの効果を示しています。
これはどのように実装されていますか?
StreamDiffusion アーキテクチャ
StreamDiffusion は、スループットを向上させるために設計された新しい拡散パイプラインです。
これは、いくつかの重要な部分で構成されています:
ストリーミング バッチ処理戦略、残差分類子なしガイダンス (RCFG)、入力および出力キュー、確率的類似性フィルター、事前計算プログラム、マイクロ オートエンコーダー用のランダム モデル アクセラレーション ツール。
バッチノイズ除去
拡散モデルでは、ノイズ除去ステップが順番に実行されるため、U-Net の処理時間が増加します。歩数に比例します。
ただし、高忠実度の画像を生成するには、ステップ数を増やす必要があります。
インタラクティブ拡散における待ち時間の長い生成の問題を解決するために、研究者はストリーム バッチと呼ばれる方法を提案しました。
下の図に示すように、最新の方法では、単一の画像が完全にノイズ除去されるのを待ってから次の入力画像を処理するのではなく、各ノイズ除去ステップの後に次の入力を受け入れます。画像。
これによりノイズ除去バッチが形成され、各画像のノイズ除去ステップが交互に行われます。
これらのインターリーブされたノイズ除去ステップをバッチに連結することにより、研究者は U-Net を使用して連続入力のバッチを効率的に処理できます。
タイム ステップ t でエンコードされた入力画像は、タイム ステップ t n で生成およびデコードされます。ここで、n はノイズ除去ステップの数です。
図
ガイド付き残差分類子無料 (RCFG)
一般的な分類子 -フリー ガイダンス (CFG) は、無条件または負の条件項と元の条件項の間でベクトル計算を実行する方法です。元の状態の効果を高めるアルゴリズム。
写真
これにより、プロンプトの効果が高まるなどのメリットが得られます。
ただし、負の条件付き残留ノイズを計算するには、各入力潜在変数を負の条件付き埋め込みとペアにして、各推論時間に U-Net に渡す必要があります。
この問題を解決するために、著者は革新的な残差分類子を使用しないブートストラップ (RCFG) を導入しました。
この方法では、仮想残差ノイズが使用されます。負の条件を近似するため、プロセスの初期段階で負の条件ノイズを計算するだけで済みます。これにより、負の条件を埋め込む際の追加の U-Net 推論計算コストが大幅に削減されます
#入力キューと出力キュー
#入力イメージをパイプラインで管理可能なテンソル データ形式に変換し、デコードされたテンソルを出力に変換します。画像、両方 無視できない追加の処理時間が必要です。
これらの画像処理時間がニューラル ネットワーク推論プロセスに追加されるのを避けるために、画像の前処理と後処理を異なるスレッドに分離し、それによって並列処理を可能にします。
また、入力テンソルキューを利用することで、機器の故障や通信エラーによる入力画像の一時的な中断にも対応でき、スムーズなストリーミングが可能となります。 ###############写真######
確率的類似性フィルター
次の図は、VAE と U-Net を含む、コアの拡散推論パイプラインを示しています。
ノイズ除去バッチ処理と事前計算されたヒント埋め込みキャッシュ、サンプリングされたノイズ キャッシュ、およびスケジューラ値キャッシュを導入することにより、推論パイプラインの速度が向上し、リアルタイムの画像生成が可能になります。
確率的類似性フィルタリング (SSF) は、GPU の消費電力を節約するように設計されており、拡散モデルのパイプラインを動的に閉じることができるため、高速かつ効率的なリアルタイム推論を実現できます。
図
事前計算
U-Net アーキテクチャには両方の入力電位が必要です変数には条件付きの埋め込みも必要です。
通常、条件付き埋め込みは「ヒント埋め込み」から派生し、異なるフレーム間で変更されません。
これを最適化するために、研究者はヒントの埋め込みを事前計算し、キャッシュに保存します。インタラクティブ モードまたはストリーミング モードでは、この事前計算されたヒント埋め込みキャッシュが呼び出されます。
U-Net では、各フレームのキーと値の計算は、事前に計算されたヒントの埋め込みに基づいて実装されます
したがって, 研究者らは、これらのキーと値のペアを再利用できるように保存するように U-Net を修正しました。入力プロンプトが更新されるたびに、研究者は U-Net 内でこれらのキーと値のペアを再計算して更新します。
モデル アクセラレーションと小型オートエンコーダー
速度を最適化するために、静的なバッチ サイズと固定入力サイズ (高さ) を使用するようにシステムを構成しました。と幅)。
このアプローチにより、計算グラフとメモリ割り当てが特定の入力サイズに合わせて最適化され、処理が高速化されます。
ただし、これは、異なる形状 (つまり、異なる高さと幅) の画像を処理する必要がある場合は、異なるバッチ サイズ (ノイズ除去ステップのバッチ サイズを含む) を使用することを意味します。
#実験的評価ノイズ除去バッチの定量的評価
## 図 8 は、バッチのノイズ除去と元の逐次 U 効率のネットの比較を示しています。ループ研究者らは、バッチノイズ除去戦略を実装したところ、処理時間が大幅に改善されたことを発見しました。これにより、連続したノイズ除去ステップを使用する従来の U-Net ループと比較して、時間が半分に短縮されます。
ニューラル モジュール アクセラレーション ツール TensorRT を適用した場合でも、研究者らが提案したストリーミング バッチ処理は、さまざまなノイズ除去ステップで元の逐次拡散パイプラインの効率を大幅に向上させることができます。
写真
平均推論時間の比較を表 1 に示します。最新のパイプラインでは、速度が大幅に向上していることがわかります。
TensorRT を使用する場合、StreamDiffusion は 10 のノイズ除去ステップを実行すると 13 倍の高速化を達成できます。単一ステップのノイズ除去ステップのみを使用する場合、速度向上は 59.6 倍に達します。
# TensorRT を使用しない場合でも、単一ステップのノイズ除去を使用すると、StreamDiffusion は AutoPipeline より 29.7 倍高速になります。 10 ステップのノイズ除去を使用する場合。
写真
表 2 は、RCFG と従来の CFG を使用した流れ拡散パイプラインの推論時間を比較しています。
シングルステップノイズ除去の場合、Onetime-Negative RCFG と従来の CFG の推論時間はほぼ同じです。
つまり、シングルステップノイズ除去中のワンタイム RCFG と従来の CFG の推論時間はほぼ同じです。ただし、ノイズ除去ステップの数が増加するにつれて、従来の CFG から RCFG への推論速度の向上がより明らかになります。
ノイズ除去の 5 番目のステップでは、セルフネガティブ RCFG は従来の CFG より 2.05 倍高速で、ワンタイムネガティブ RCFG は従来の CFG より 1.79 倍高速です。
写真
写真
この後、研究者たちはエネルギー消費量を包括的に調査しました。評価されました。このプロセスの結果を図 6 と 7 に示します。
これらの図は、定期的な静的比較分析を含めるために入力ビデオに SSF を適用する (しきい値 eta を 0.98 に設定する) ことを示しています。特徴的なシーンにおける GPU 使用パターンの分析から、入力画像が主に静止画像で類似性が高い場合、SSF を使用すると GPU 使用量が大幅に削減できることがわかります。
写真
アブレーション研究
異なるモジュールが異なるノイズ除去ステップを実行します。平均推論時間を表 3 に示します。見てわかるように、さまざまなモジュールの削減は、イメージからイメージへの生成プロセスで検証されます。
写真
定性的な結果
は、残りのデータを使用して図 10 に示します。分類子ガイダンスなしで生成された画像を条件付きで迅速に調整するための位置合わせプロセス (RCFG)
形式の CFG を使用せずに生成された画像には、特に色の変更などの側面で弱い位置合わせのヒントが表示されます。または、存在しない要素の追加が効率的に実装されていませんでした。
対照的に、CFG または RCFG を使用すると、髪の色の変更、体のパターンの追加、メガネなどのオブジェクトの追加など、元の画像を変更する機能が強化されます。特に、RCFG を使用すると、標準の CFG と比較してキューのインパクトを高めることができます。
画像
最後に、標準的なテキストから画像への生成結果の品質を図 11 に示します。
sd-turbo モデルを使用すると、図 11 に示すような高品質の画像を 1 ステップで生成できます。
GPU:RTX 4090、CPU:Core i9-13900K、OS:Ubuntu 22.04.3 LTSの環境で、研究者が提案したフロー拡散パイプラインとSD-turboモデルを使用した場合画像を生成する場合、100fpsを超える高品質の画像を生成することが可能です。
画像
ネチズンが始めて、二次元女性の大波がやって来た
写真
プロジェクトアドレス: https://github.com/cumulo-autumn/StreamDiffusion
多くのネットユーザーが自分の二次元嫁を生成し始めています。
写真
リアルタイム アニメーションもあります。
写真
10 倍速の手描き生成。
#写真
写真
##写真## 子供靴に興味のある方はぜひ作ってみてはいかがでしょうか。
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133
以上が無料のパーソナライズされた学術論文推薦システム - ドイツの大学のトップビジュアルチームの「arXiv カスタマイズされたプラットフォーム」を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











2020年3月31日、初音ミクはかつて結婚に数百万ドルを費やした日本のオタクと正式に「離婚」し、それから約4年が経った。実際、二人が結婚した当時、多くの人は二人の結婚を楽観視していませんでしたが、結局のところ、三次元に住んでいる人間が二次元の紙の人間と結婚するというのは非常にとんでもないことでした。しかし、ネットユーザーからの批判にもかかわらず、日本のオタクである近藤昭彦は引き下がらず、最終的には初音ミクと結婚式を挙げました。結婚後、近藤昭彦が時々投稿した写真から判断すると、彼の人生は初音ミクとの結婚生活はとてもよかったですが、残念ながら彼らの結婚生活は長くは続きませんでした。初代初音モデルのGateboxの著作権が切れたため、近藤昭彦の妻である初音ミクも

General Matrix Multiplication (GEMM) は、多くのアプリケーションやアルゴリズムの重要な部分であり、コンピューター ハードウェアのパフォーマンスを評価するための重要な指標の 1 つでもあります。 GEMM の実装に関する徹底的な調査と最適化は、ハイ パフォーマンス コンピューティングとソフトウェア システムとハードウェア システムの関係をより深く理解するのに役立ちます。コンピューター サイエンスでは、GEMM を効果的に最適化すると、計算速度が向上し、リソースが節約されます。これは、コンピューター システムの全体的なパフォーマンスを向上させるために非常に重要です。 GEMM の動作原理と最適化方法を深く理解することは、最新のコンピューティング ハードウェアの可能性をより有効に活用し、さまざまな複雑なコンピューティング タスクに対してより効率的なソリューションを提供するのに役立ちます。 GEMMのパフォーマンスを最適化することで

7月29日、AITO Wenjieの40万台目の新車のロールオフ式典に、ファーウェイの常務取締役、ターミナルBG会長、スマートカーソリューションBU会長のYu Chengdong氏が出席し、スピーチを行い、Wenjieシリーズモデルの発売を発表した。 8月にHuawei Qiankun ADS 3.0バージョンが発売され、8月から9月にかけて順次アップグレードが行われる予定です。 8月6日に発売されるXiangjie S9には、ファーウェイのADS3.0インテリジェント運転システムが初搭載される。 LiDARの支援により、Huawei Qiankun ADS3.0バージョンはインテリジェント運転機能を大幅に向上させ、エンドツーエンドの統合機能を備え、GOD(一般障害物識別)/PDP(予測)の新しいエンドツーエンドアーキテクチャを採用します。意思決定と制御)、駐車スペースから駐車スペースまでのスマート運転のNCA機能の提供、CAS3.0のアップグレード

タオバオを利用する過程で、知り合いの友人から勧められることがよくありますが、この機能をオフにする方法を紹介しますので、興味のある友人はぜひご覧ください。携帯電話で「タオバオ」アプリを開いた後、ページの右下隅にある「マイタオバオ」をクリックして個人センターページに入り、右上隅にある「設定」機能をクリックして設定ページに入ります。 2. 設定ページに移動したら、「プライバシー」を見つけて、この項目をクリックして入力します。 3. プライバシーページに「友達を紹介する」があり、現在のステータスが「オン」になっている場合は、クリックして閉じます。 4. 最後に、ポップアップウィンドウの「友達を紹介する」の後ろに切り替えボタンが表示されるので、それをクリックしてボタンをグレーに設定します。

4月11日、ファーウェイはHarmonyOS 4.2 100台のアップグレード計画を初めて正式に発表し、今回は携帯電話、タブレット、時計、ヘッドフォン、スマートスクリーンなどのデバイスを含む180台以上のデバイスがアップグレードに参加する予定だ。先月、HarmonyOS4.2 100台アップグレード計画の着実な進捗に伴い、Huawei Pocket2、Huawei MateX5シリーズ、nova12シリーズ、Huawei Puraシリーズなどの多くの人気モデルもアップグレードと適応を開始しました。 HarmonyOS によってもたらされる共通の、そして多くの場合新しい体験を楽しむことができる Huawei モデルのユーザーが増えることになります。ユーザーのフィードバックから判断すると、HarmonyOS4.2にアップグレードした後、Huawei Mate60シリーズモデルのエクスペリエンスがあらゆる面で向上しました。特にファーウェイM

Apple 16 システムの最適なバージョンは iOS16.1.4 です。iOS16 システムの最適なバージョンは人によって異なります。日常の使用体験における追加と改善も多くのユーザーから賞賛されています。 Apple 16 システムの最適なバージョンはどれですか? 回答: iOS16.1.4 iOS 16 システムの最適なバージョンは人によって異なる場合があります。公開情報によると、2022 年にリリースされた iOS16 は非常に安定していてパフォーマンスの高いバージョンであると考えられており、ユーザーはその全体的なエクスペリエンスに非常に満足しています。また、iOS16では新機能の追加や日常の使用感の向上も多くのユーザーからご好評をいただいております。特に最新のバッテリー寿命、信号性能、加熱制御に関して、ユーザーからのフィードバックは比較的好評です。ただし、iPhone14を考慮すると、

初心者から専門家まで: C コンパイラーの 5 つの必須の推奨事項 コンピューター サイエンスの発展に伴い、プログラミング言語に興味を持つ人がますます増えています。 C 言語は、システムレベルのプログラミングで広く使用される高級言語として、常にプログラマーに愛されてきました。効率的で安定したコードを作成するには、自分に合った C 言語コンパイラを選択することが重要です。この記事では、初心者から専門家まで選択できる 5 つの必須の C 言語コンパイラを紹介します。 GNU コンパイラ コレクションである GCCGCC は、最も一般的に使用される C 言語コンパイラの 1 つです。

Huang Quan のライト コーンは、戦闘でキャラクターのクリティカル ヒット ダメージと攻撃力を効果的に増加させることができます。Huang Quan が推奨するライト コーンは次のとおりです: 通り過ぎる岸辺を歩く、おやすみと寝顔、雨は降り続ける、ただ待つ、ビーズのような決意汗の. Shine、以下の編集者は崩壊したスタードーム鉄道のUnderworld Light Coneに関する推奨事項を提供します。黄泉ライトコーンのおすすめ 1. 渡し岸を歩く 1. 黄泉の特別な武器は爆発ダメージを増加させることができます. 敵を攻撃すると敵をバブルマイナス状態にすることができ、与えるダメージが増加します. フィニッシュムーブのダメージはさらに増加します. マイナス状態とダメージが増加する両方があり、特殊な武器と言わざるを得ません。 2. 専用のライトコーンは数あるエーテルライトコーンの中でも非常にユニークで、直接ダメージを増加させ、高いダメージを与え、クリティカルダメージ属性を向上させます。 3. それだけでなく、ライトコーンはマイナスのステータス効果も提供し、Huangquan 自体に反応を引き起こす可能性があります。
