最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！-AI-php.cn

ホームページ

テクノロジー周辺機器

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

PHPz

Apr 09, 2023 pm 08:31 PM

モデル分析する

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

このレビュー (普及モデル: 手法とアプリケーションの包括的な調査) は、カリフォルニア大学の Ming-Hsuan Yang 氏と、北京大学 Cui Bin 研究所の Google Research によるものです。、CMU、UCLA、モントリオールミラ研究所およびその他の研究チームは、既存の拡散モデルの包括的な概要と分析を初めて実施し、拡散モデルアルゴリズムからの分類、他の 5 つの主要な生成モデルとの関連性、および拡散モデルのアルゴリズムによる分類を詳細に説明しました。 7 つの主要分野での応用を検討し、応用などを実施し、最終的に普及モデルの現状の限界と今後の発展の方向性を提案します。

記事リンク: https://arxiv.org/abs/2209.00796 拡散モデルの論文分類概要のこのレビュー github リンク: https://github.com/YangLing0818/ Diffusion -Models-Papers-Survey-Taxonomy

1

はじめに

Diffusion モデルは、深い生成モデル SOTA の中で新しいものです。拡散モデルは、画像生成タスクにおいてオリジナルの SOTA: GAN を上回り、コンピュータビジョン、NLP、波形信号処理、マルチモーダルモデリング、分子グラフモデリング、時系列モデリングなどの多くの応用分野で優れたパフォーマンスを発揮します。浄化など。さらに、拡散モデルは、ロバスト学習、表現学習、強化学習などの他の研究分野と密接に関連しています。

ただし、元の拡散モデルにも欠点があります。サンプリング速度が遅く、通常、サンプルを抽出するために数千の評価ステップが必要です。最尤推定は尤度ベースの推定と比較できません。他のモデルと比較すると、さまざまなデータ型に一般化する能力が劣ります。現在、多くの研究が実用化の観点から上記の制限を解決するため、または理論的な観点からモデルの機能を分析するために多くの努力が払われています。

しかし、アルゴリズムからアプリケーションに至る普及モデルの最近の進歩についての体系的なレビューは現在不足しています。この急速に成長する分野の進歩を反映するために、普及モデルの最初の包括的なレビューを紹介します。私たちは、私たちの研究が拡散モデルの設計上の考慮事項と高度な手法に光を当て、さまざまな分野での応用を実証し、将来の研究の方向性を示すことを構想しています。このレビューの概要を以下に示します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

#拡散モデルはさまざまなタスクで優れたパフォーマンスを発揮しますが、依然として独自の欠点があり、多くの点が挙げられます。研究により拡散モデルが改善されました。

拡散モデルの研究の進捗状況を系統的に明らかにするために、元の拡散モデルの 3 つの主な欠点、つまりサンプリング速度の遅さ、最尤差、データの一般化の弱さをまとめました。また、拡散モデルの改善研究を、サンプリング速度の改善、最尤化の強化、およびデータ一般化の強化という 3 つの対応するカテゴリに分類することも提案されています。

最初に改善の動機を説明し、次に手法の特徴に応じて改善の方向ごとに研究を分類し、手法間の関連性と相違点を明確に示します。。ここでは、例としていくつかの重要なメソッドのみを選択します。図に示すように、各タイプのメソッドは私たちの研究で詳しく紹介されています。 3 種類の拡散モデルを分析し、他の 5 つの生成モデル、GAN、VAE、自己回帰モデル、正規化フロー、エネルギーベースモデルを紹介します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

研究者は、拡散モデルの優れた特性を考慮して、その特性に応じて拡散モデルを他の生成モデルと組み合わせました。拡散モデルの詳細この記事では、拡散モデルと他の生成モデルを組み合わせる作業を紹介し、元の生成モデルの改良点を説明します。

拡散モデルは多くの分野で優れた性能を発揮しており、拡散モデルは応用分野によって変形が異なることを考慮し、拡散モデルの応用研究を体系的に導入しました。 : コンピュータービジョン、NLP、波形信号処理、マルチモーダルモデリング、分子グラフモデリング、時系列モデリング、敵対的浄化。各タスクについて、タスクを定義し、拡散モデルを利用してタスクを処理する作業を紹介します。

この作業の主な貢献を次のように要約します。

新しい分類方法: 拡散モデルとその応用のための新しい体系的な分類方法を提案します。具体的には、モデルをサンプリング速度の強化、最尤推定の強化、データ一般化の強化の 3 つのカテゴリに分類します。さらに、拡散モデルのアプリケーションを、コンピュータービジョン、NLP、波形信号処理、マルチモーダルモデリング、分子グラフモデリング、時系列モデリング、および敵対的浄化の 7 つのカテゴリに分類します。
包括的なレビュー: 最新の普及モデルとその応用について、初めて包括的な概要を提供します。各普及モデルの主な改良点を示し、元のモデルと必要な比較を行い、対応する論文を要約します。普及モデルの適用の種類ごとに、普及モデルが対処する主な問題を提示し、それらの問題をどのように解決するかを説明します。
今後の研究の方向性: 私たちは将来の研究に対する未解決の質問を提起し、アルゴリズムとアプリケーションにおける拡散モデルの将来の開発についていくつかの提案を提供します。

2 拡散モデルの基礎

生成モデリングにおける中心的な問題は、モデルの柔軟性と計算能力のトレードオフのバランスです。拡散モデルの基本的な考え方は、順拡散プロセスを通じてデータの分布を体系的に撹乱し、その後、逆拡散プロセスを学習することでデータの分布を復元することで、非常に柔軟で計算が容易なモデルを生成することです。生成モデル。

(1) ノイズ除去拡散確率モデル (DDPM)

DDPM は、2 つのパラメータ化されたマルコフ連鎖構成と変分推論を使用して、有限時間後の元のデータ分布と一致するサンプルを生成します。フォワードチェーンの機能はデータに摂動を与えることであり、データの分布が事前分布、つまり標準ガウス分布になるまで、事前に設計されたノイズスケジュールに従ってデータにガウスノイズを徐々に追加します。逆方向チェーンは、指定された事前確率から開始され、パラメーター化されたガウス変換カーネルを使用して、元のデータ分布を徐々に復元することを学習します。が元のデータとその分布を表す場合、前方チェーンの分布は次の式で表すことができます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

これは、前方チェーンがはマルコフプロセスとは、t段階のノイズを加えた後のサンプルであり、あらかじめ与えられたノイズの進み具合を制御するパラメータです。が 1 に近づくと、ほぼ標準ガウス分布に従うと考えられます。それが非常に小さい場合、逆プロセスの転送カーネルは近似的にガウスであると考えることができます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

変分の下限は次のように学習できます。損失関数:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

## (2) スコアベースの生成モデル (SGM)

上記の DDPM は、SGM の離散形式とみなすことができます。 SGM は、確率微分方程式（SDE）を構築してデータ分布を滑らかに乱し、元のデータ分布を既知の事前分布に変換します。対応する逆 SDE を使用して、以前の分布を元のデータ分布に変換します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

したがって、拡散プロセスを逆にしてデータを生成するには、必要な情報は、各時点における分数関数のみです。スコアマッチング手法を使用すると、次の損失関数を通じてスコア関数を学習できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

2 つの方法と 2 つの関係の詳細については、記事を参照してください。元の拡散モデルの 3 つの主な欠点は、サンプリング速度が遅い、尤度の最大化が不十分であること、およびデータ一般化能力が弱いことです。最近の研究の多くはこれらの欠点に対処しているため、改良された拡散モデルをサンプリング速度の強化、最尤化の強化、およびデータ一般化の強化の 3 つのカテゴリに分類します。次の 3、4、5 セクションで、これら 3 種類のモデルを詳しく紹介します。

3 サンプリング加速法

適用する場合、新しいサンプルの最高品質を達成するために、多くの場合、拡散モデルを処理する必要があります。数千回新しいサンプルを取得するための 1 万ステップの計算。これにより、拡散モデルの実際の応用価値が制限されます。実際の応用では、多くの場合、処理の次のステップに材料を提供するために多数の新しいサンプルを生成する必要があるからです。

研究者は、拡散モデルのサンプリング速度を向上させるために多くの研究を行ってきました。これらの研究について詳しく説明します。これを、離散化最適化、非マルコフプロセス、部分サンプリングの 3 つの方法に洗練します。

(1) 離散化最適化手法は、拡散 SDE を解く手法を最適化します。実際には複雑な SDE を解くには実解を近似するために離散解しか使用できないため、このタイプの方法では、サンプルの品質を確保しながら離散ステップの数を削減するために SDE の離散化方法を最適化しようとします。 SGM は、逆方向プロセスを解くための一般的な方法、つまり、順方向プロセスと逆方向プロセスに同じ離散化方法を採用する方法を提案します。順方向 SDE に離散化が与えられている場合:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

# 次に、逆 SDE も同じ方法で離散化できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

この方法は、単純な DDPM よりもわずかに優れています。さらに、SGM は SDE ソルバーに補正機能を追加し、各ステップで生成されるサンプルが正しい分布になるようにします。解法の各ステップで、ソルバーにサンプルが与えられた後、補正器はマルコフ連鎖モンテカルロ法を使用して、生成されたばかりのサンプルの分布を補正します。実験によると、ソルバーに補正器を追加すると、ソルバーのステップ数を直接増やすよりも効率的であることがわかりました。

(2) 非マルコフ過程メソッドは、元のマルコフ過程の制限を打ち破ります。逆プロセスの各ステップは、より多くの過去のサンプルに依存して新しいサンプルを予測できます。ステップサイズを大きくすると、より適切な予測を行うこともできるため、サンプリングプロセスが高速化されます。その中で、主な作業である DDIM は、フォワードプロセスがマルコフプロセスであることを前提とせず、次の分布に従います:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

サンプリングDDIM のプロセスは離散化された正規微分方程式として扱うことができるため、サンプリングプロセスはより効率的であり、サンプルの内挿をサポートします。さらなる研究により、DDIM は多様体上拡散モデル PNDM の特殊なケースと見なすことができることがわかりました。

(3) 部分サンプリング法は、生成プロセスで時間ノードの一部を無視し、残りの時間ノードのみを使用してサンプルを生成することにより、サンプリング時間を直接短縮します。たとえば、漸進的蒸留は、トレーニングされた拡散モデルからより効率的な拡散モデルを蒸留します。トレーニングされた拡散モデルの場合、漸進的蒸留は新しい拡散モデルの 1 ステップがトレーニングされた拡散モデルの 2 ステップに対応するように拡散モデルを再トレーニングします。これにより、新しいモデルは古いモデルのサンプリングプロセスの半分を節約できます。具体的なアルゴリズムは次のとおりです。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

この蒸留プロセスを継続的にループさせると、サンプリングステップを大幅に削減できます。

4 最尤推定の強化

最尤推定における拡散モデルのパフォーマンスは、尤度関数に基づく生成モデルのパフォーマンスより劣りますが、最大画像圧縮、半教師あり学習、敵対的浄化など、多くのアプリケーションシナリオは非常に重要です。対数尤度を直接計算するのは難しいため、研究は主に変分下限 (VLB) の最適化と分析に焦点を当てています。拡散モデルの最尤推定を改善するモデルについて詳しく説明します。私たちはこれを、目標設計、ノイズスケジュール最適化、学習可能な逆分散という 3 つのカテゴリの手法に細分化します。

(1) 目的拡散 SDE を使用して、生成されたデータの対数尤度とスコア関数に一致する損失関数の関係を推定する設計手法です。このように、損失関数を適切に設計することで、VLB と対数尤度を最大化できます。 Song らは、プラグイン逆 SDE によって生成されたサンプルの尤度関数値が損失関数値以下になるように、損失関数の重み関数を設計できることを証明しました。尤度関数の上限。分数関数フィッティングの損失関数は次のとおりです。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

重み関数を拡散係数 g(t) に設定するだけで、次のようになります。損失関数は尤度関数の VLB、つまり

## (2) ノイズになります。設計に従って最適化をスケジュールするか、VLB を増やすためにフォワードプロセスのノイズの多い進行状況を学習します。 VDM は、離散ステップが無限大に近づくと、損失関数が信号対雑音比関数 SNR(t) の終点によって完全に決定されることを証明します。 # 次に、「離散ステップが無限大に近づくとき」では、信号対雑音比関数 SNR(t) のエンドポイントを学習することで VLB を最適化し、関数値を学習することでモデルの他の側面を改善できます。信号対雑音比関数の中央部分。 3. 学習可能な逆分散法は逆プロセスの分散を学習するため、フィッティングエラーが減少し、VLB を効果的に最大化できます。 Analytic-DPM は、DDPM と DDIM の逆プロセスに最適な期待値と分散があることを証明します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

上記の式とトレーニング済みの Fractional を使用します。関数を使用すると、特定のフォワードプロセスの条件下で、最適な VLB をほぼ達成できます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！ 5

データ一般化の強化

拡散モデルは、データがユークリッド空間、つまり平面幾何学を持つ多様体に存在すると仮定します。また、ガウスノイズを追加すると必然的にデータが連続状態空間に変換されるため、拡散モデルは最初は写真などの連続データしか扱えず、離散データやその他のデータ型を直接適用する効果は乏しいです。これにより、普及モデルの適用シナリオが制限されます。

いくつかの研究成果は拡散モデルを他のデータ型に一般化しており、これらの方法について詳しく説明します。特徴空間統合とデータ依存遷移カーネルの 2 種類の手法に分類されます。

(1) 特徴空間統合法は、データを統合潜在空間に変換し、潜在空間上に拡散します。 LSGM は、VAE フレームワークを通じてデータを連続的な潜在空間に変換し、その上に拡散することを提案します。この方法の難しさは、VAE と拡散モデルを同時にトレーニングする方法です。 LSGM は、基礎となる事前分布が扱いにくいため、部分的なマッチング損失が適用されなくなることを示しています。 LSGM は、VAE の従来の損失関数 ELBO を損失関数として直接使用し、ELBO とスコアマッチングの関係を導き出します。

この式は定数を無視します。という意味で確立されています。拡散プロセスにおけるサンプルの分数関数をパラメータ化することにより、LSGM は ELBO を効率的に学習して最適化できます。

(2) データ依存型遷移カーネル法は、データ型の特性に応じて拡散過程における遷移カーネルを設計するため、拡散モデルを特定のデータ型に直接適用できます。 D3PM は、遅延ランダムウォーク、吸収状態などに設定できる離散データ用の遷移カーネルを設計しました。 GEODIFF は、3D 分子グラフデータ用の並進回転不変グラフニューラルネットワークを設計し、不変初期分布と遷移カーネルによって不変周辺分布を導出できることを証明しました。これが次のような平行移動 - 回転変換であると仮定します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

その場合、生成されたサンプル分布にも平行移動 - 回転の不変性があります。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

##6 他の生成モデルとの関係

以下の各セクションでは、最初に他の 5 つの重要なタイプの生成モデルを紹介します。そしてその強みと限界を分析します。次に、拡散モデルがそれらにどのように関連しているかを紹介し、拡散モデルを組み込むことでこれらの生成モデルをどのように改善できるかを説明します。 VAE、GAN、自己回帰モデル、正規化フロー、エネルギーベースのモデル、拡散モデルの関係を以下の図に示します。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

拡散モデルの応用

このセクションでは、コンピュータービジョンと自然言語処理における拡散モデルの応用について紹介します。、波形信号処理、マルチモーダル学習、分子グラフ生成、時系列および敵対的学習など、7 つの主要な応用方向のアプリケーションと、それぞれの種類のアプリケーションにおける手法を細分化して分析します。たとえば、コンピュータビジョンでは、拡散モデルを画像の完成と修復 (再ペイント) に使用できます。

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

マルチモーダルタスクでは、拡散モデルテキストから画像への生成 (GLIDE) を使用できます:

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

拡散モデルを使用して、分子グラフで薬物分子やタンパク質分子を生成することもできます世代 (GeoDiff):

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

#アプリケーション分類の概要を表に示します。

##8 今後の研究の方向性

仮説の再検証を適用します。アプリケーションにおいて一般的に受け入れられている仮定を検討する必要があります。たとえば、実際には、拡散モデルの前方プロセスによってデータが標準ガウス分布に変換されると一般に考えられていますが、これは当てはまりません。前方拡散ステップを増やすと、最終的なサンプル分布が標準ガウス分布に近づきます。、サンプリングプロセスと一致します。 ; しかし、前方拡散ステップが増えると、分数関数の推定も難しくなります。理論的な条件を得るのが難しいため、実際には理論と実践の間に不一致が生じます。私たちはこの状況を認識し、適切な普及モデルを設計する必要があります。
離散時間から連続時間へ。拡散モデルの柔軟性により、多くの経験的手法はさらなる分析によって強化できます。この研究アイデアは、離散時間モデルを対応する連続時間モデルに変換し、より多くのより優れた離散手法を設計することによって有望です。
新しい生成プロセス。拡散モデルは 2 つの主な方法でサンプルを生成します: 1 つは逆拡散 SDE を離散化し、次に離散化された逆 SDE を通じてサンプルを生成する方法、もう 1 つは逆プロセスのマルコフ特性を使用してサンプルから徐々にノイズを除去する方法です。ただし、一部のタスクでは、これらの方法を適用して実際にサンプルを生成するのは困難です。したがって、新しい生成プロセスと視点についてのさらなる研究が必要です。
より複雑なシナリオとより多くの研究領域に一般化します。拡散モデルは多くのシナリオに適用されていますが、そのほとんどは単一入力および単一出力のシナリオに限定されており、将来的には、テキストからオーディオビジュアルへの音声合成など、より複雑なシナリオへの適用を検討できます。より多くの研究分野と組み合わせることも検討できます。

以上が最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7487

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

Llama 70B を実行するシングルカードはデュアルカードより高速、Microsoft は FP6 を A100 オープンソースに強制導入 Apr 29, 2024 pm 04:55 PM

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングルカードを使用して Llama を実行すると、スループットはデュアルカードのスループットの 2.65 倍になります。 1つ

See all articles

最近人気のディフュージョンモデル、ディフュージョン世代モデルの初レビュー！

1

2 拡散モデルの基礎

3 サンプリング加速法

4 最尤推定の強化

いくつかの研究成果は拡散モデルを他のデータ型に一般化しており、これらの方法について詳しく説明します。特徴空間統合とデータ依存遷移カーネルの 2 種類の手法に分類されます。

##6 他の生成モデルとの関係

拡散モデルの応用

##8 今後の研究の方向性

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック