単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現します
1 枚の自然画像から画像を生成する技術は広く普及しており、ますます注目を集めています。この研究は、パッチの内部統計を取得することで、単一の自然画像から無条件生成モデルを学習し、同様の視覚コンテンツを持つさまざまなサンプルを生成することを目的としています。トレーニングが完了すると、モデルは高品質で解像度に依存しない画像を生成できるだけでなく、画像編集、画像の調和、画像間の変換などのさまざまなアプリケーションに簡単に適応させることもできます。
SinGAN は上記の要件を満たすことができ、この方法では複数のスケールの自然画像を構築し、一連の GAN をトレーニングして単一画像内のパッチの内部統計を学習できます。 SinGAN の中心となるアイデアは、段階的に拡大するスケールで複数のモデルをトレーニングすることです。ただし、これらの方法で生成された画像は、小規模な詳細エラーが発生し、生成された画像に明らかなアーティファクトが発生するため、満足のいくものではない可能性があります (図 2 を参照)。
この記事では、中国科学技術大学、マイクロソフト リサーチ アジア、その他の機関の研究者が、新しいフレームワーク - 単一画像拡散 (SinDiffusion、単一画像拡散)。ノイズ除去拡散確率モデル (DDPM) に基づく単一の自然画像から学習します。拡散モデルは複数段階の生成プロセスですが、累積誤差の問題はありません。その理由は、拡散モデルには体系的な数式があり、中間ステップでのエラーは干渉とみなされ、拡散プロセス中に改善できるためです。
SinDiffusion のもう 1 つの核となる設計は、拡散モデルの受容野を制限することです。この研究では、以前の拡散モデル [7] で一般的に使用されていたネットワーク構造をレビューし、より強力なパフォーマンスとより深い構造を備えていることがわかりました。ただし、このネットワーク構造の受容野は画像全体をカバーするのに十分な大きさであるため、モデルは記憶トレーニング画像に依存してトレーニング画像とまったく同じ画像を生成する傾向があります。画像全体を記憶するのではなく、モデルにパッチ統計を学習させるために、研究ではネットワーク構造を慎重に設計し、パッチごとのノイズ除去ネットワークを導入しました。以前の拡散構造と比較して、SinDiffusion は元のノイズ除去ネットワーク構造におけるダウンサンプリングの数と ResBlock の数を削減します。このようにして、SinDiffusion は 1 つの自然画像から学習し、高品質で多様な画像を生成できます (図 2 を参照)。
- #論文アドレス: https://arxiv.org/pdf/2211.12445.pdf
- プロジェクトアドレス: https://github.com/WeilunWang/SinDiffusion
SinDiffusion の利点は、さまざまなシナリオで柔軟に使用できることです (図 1 を参照)。モデルを再トレーニングすることなく、さまざまなアプリケーションで使用できます。 SinGAN では、ダウンストリーム アプリケーションは主に、さまざまなスケールで事前トレーニングされた GAN に条件を入力することによって実装されます。したがって、SinGAN の適用は、空間的に揃った条件が与えられたものに限定されます。これに対し、SinDiffusion はサンプリング手順を設計することで、より幅広い用途に使用できます。 SinDiffusion は、無条件トレーニングを通じてデータ分布の勾配を予測する方法を学習します。生成された画像と条件 (つまり、L-p 距離または CLIP などの事前学習済みネットワーク) 間の相関関係を記述するスコアリング関数があると仮定すると、この研究では相関スコアの勾配を利用して SinDiffusion のサンプリング プロセスをガイドします。このようにして、SinDiffusion はデータ分布と指定された条件の両方に適合する画像を生成できます。
研究では、提案されたフレームワークの利点を実証するために、さまざまな自然画像に対して実験を実施しました。有名な芸術。定量的結果と定性的結果の両方で、SinDiffusion が高忠実度で多様な結果を生成できることが確認され、下流のアプリケーションでは SinDiffusion の有用性と柔軟性がさらに実証されています。
方法
以前の研究における漸進的成長設計とは異なり、SinDiffusion では、トレーニングに単一スケールの単一ノイズ除去モデルを使用し、エラーの蓄積を防ぎます。さらに、本研究では、拡散ネットワークのパッチレベルの受容野が内部パッチ分布の捕捉に重要な役割を果たしていることを発見し、新しいノイズ除去ネットワーク構造を設計しました。これら 2 つのコア設計に基づいて、SinDiffusion は 1 枚の自然画像から高品質で多様な画像を生成します。
このセクションの残りの部分は次のように構成されています。最初に SinGAN をレビューし、SinDiffusion の動機を示し、次に SinDiffusion の構造設計を紹介します。
まず、SinGAN について簡単におさらいしましょう。図 3(a) は SinGAN の生成プロセスを示しています。単一の画像からさまざまな画像を生成するために、SinGAN の重要な設計は、画像ピラミッドを構築し、生成される画像の解像度を徐々に高めることです。
図 3(b) は、SinDiffusion の新しいフレームワークを示しています。 SinGAN とは異なり、SinDiffusion は、単一のスケールで単一のノイズ除去ネットワークを使用して、複数ステップの生成プロセスを実行します。 SinDiffusion も SinGAN と同じマルチステップ生成プロセスを使用しますが、生成された結果は高品質です。これは、拡散モデルが数式の体系的な導出に基づいており、中間ステップで生成された誤差が拡散プロセス中に繰り返しノイズに精製されるためです。
SinDiffusion
この記事では研究しました世代の多様性とノイズ除去ネットワークの受容野の関係 - ノイズ除去ネットワークのネットワーク構造を変更すると受容野が変化する可能性があり、受容野は異なるが同等の性能を持つ 4 つのネットワーク構造がこれらのモデルを 1 つの自然画像でトレーニングするように設計されました。 。図 4 は、さまざまな受容野の下でモデルによって生成された結果を示しています。受容野が小さいほど、SinDiffusion によって生成される結果はより多様になり、またその逆も同様であることが観察できます。しかし、研究により、非常に小さな受容野モデルでは画像の合理的な構造を維持できないことが判明しました。したがって、適切な受容野は重要であり、適切なパッチ統計を取得するために必要です。
#この研究では、一般的に使用される拡散モデルを再設計し、単一画像生成用のパッチ単位のノイズ除去ネットワークを導入します。図 5 は、SinDiffusion のパッチ単位のノイズ除去ネットワークの概要であり、以前のノイズ除去ネットワークとの主な違いを示しています。まず、ダウンサンプリングとアップサンプリングの操作を減らすことでノイズ除去ネットワークの深さが減り、それによって受容野が大幅に拡大します。同時に、ノイズ除去ネットワークで元々使用されていたディープ アテンション層は自然に削除され、SinDiffusion はあらゆる解像度での生成に適した完全な畳み込みネットワークになります。第二に、SinDiffusion の受容野は、各解像度での埋め込み時間の再ブロックを減らすことによってさらに制限されます。この方法は、適切な受容野を備えたパッチ単位のノイズ除去ネットワークを取得するために使用され、現実的で多様な結果が得られます。
SinDiffusion がランダムに生成した画像の定性的結果を図 6 に示します。
さまざまな解像度で、SinDiffusion がトレーニング画像と同様のパターンを持つ実際の画像を生成できることがわかります。
さらに、この記事では、単一の画像から高解像度の画像を生成する SinDiffusion についても説明します。図 13 は、トレーニング画像と生成された結果を示しています。トレーニング画像は、雲、山、草、花、湖などの豊富なコンポーネントを含む解像度 486 × 741 の風景画像です。高解像度画像の生成に対応するために、SinDiffusion は、より大きな受容野とネットワーク機能を備えた拡張バージョンにアップグレードされました。 SinDiffusion の拡張バージョンは、解像度 486 × 2048 の高解像度の長いスクロール画像を生成します。生成されたエフェクトは、トレーニング画像の内部レイアウトを変更せずに維持し、図 13 に示すように、新しいコンテンツを要約します。
以前の方法との比較
表 1 は、次の方法との違いを示しています。 SinDiffusion 生成された定量的結果は、いくつかの困難な方法 (つまり、SinGAN、ExSinGAN、ConSinGAN、GPNN) と比較されます。以前の GAN ベースの手法と比較して、SinDiffusion は段階的な改善を経て SOTA パフォーマンスを達成しました。この記事の研究方法により、生成される画像の多様性が大幅に向上したことは注目に値します。Places50 データセットでトレーニングされた 50 モデルの平均で、この方法は、現在最も困難な方法を 0.082 LPIPS のスコアで上回りました。
# 図 8 は、定量的な結果に加えて、Places50 データセットの定性的な結果も示しています。
図 15 は、SinDiffusion と以前の方法によるテキスト ガイド付き画像生成の結果を示しています。
以上が単一の自然画像から拡散モデルを学習することは GAN よりも優れており、SinDiffusion は新しい SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

今日は、時系列予測のパフォーマンスを向上させるために、時系列データを潜在空間上の大規模な自然言語処理 (NLP) モデルと整合させる方法を提案するコネチカット大学の最近の研究成果を紹介したいと思います。この方法の鍵は、潜在的な空間ヒント (プロンプト) を使用して時系列予測の精度を高めることです。論文タイトル: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting ダウンロードアドレス: https://arxiv.org/pdf/2403.05798v1.pdf 1. 大きな問題の背景モデル

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
