拡散モデルはアルゴリズムの問題を克服し、AGI は遠くありません。 Google Brain が迷路の最短経路を見つける
「拡散モデル」はアルゴリズムの問題も克服できるのでしょうか?
写真
博士研究者は、「離散拡散」を使用して、次の最短経路で表される画像を見つけるという興味深い実験を行いました。迷路。
写真
著者によると、各迷路は水平の壁と垂直の壁を繰り返し追加することで生成されます。
このうち、開始点と目標点はランダムに選択されます。
始点から目標点までの最短経路からランダムに経路を解として抽出します。最短パスは正確なアルゴリズムを使用して計算されます。
写真
次に、離散拡散モデルと U-Net を使用します。
開始点とゴールの迷路は 1 つのチャネルでエンコードされ、モデルは別のチャネルのソリューションを使用して迷路のノイズを除去します。
写真
迷路がどんなに難しくても、上手に作ることができます。
図
ノイズ除去ステップ p(x_{t-1} | x_t) を推定するために、アルゴリズムは次のようにします。 p( x_0 | x_t) を推定します。プロセス中にこの推定値 (下の行) を視覚化すると、「現在の仮定」が表示され、最終的には結果に焦点が当てられます。
写真
NVIDIA の上級科学者 Jim Fan 氏は、これは興味深い実験であり、拡散モデルは、アルゴリズム。 Transforme よりもはるかに弱い U-Net を使用しても、ピクセルのみから迷路探索を実装できます。
私は常々、拡散モデルがレンダラーであり、Transformer が推論エンジンだと考えてきました。レンダラー自体も非常に複雑な逐次アルゴリズムをエンコードできるようです。
写真
この実験は単にネチズンに衝撃を与えました。「拡散モデルで他に何ができるの?!」
写真
誰かが十分なデータセットで拡散変換器を訓練すれば、AGI は解決されるだろうと言う人もいます。
写真
ただし、この研究はまだ正式に発表されておらず、著者はarxivで更新されると述べています後で。
この実験では、2021 年に Google Brain チームによって提案された離散拡散モデルが使用されたことは注目に値します。
写真
つい最近、この研究が新しい版に更新されました。
離散拡散モデル
「生成モデル」は機械学習の中核問題です。
これは、自然データセットの統計を取得する能力の尺度としても、画像、テキスト、音声などの高次元データを生成する必要がある下流アプリケーションでも使用できます。
GAN、VAE、大規模な自己回帰ニューラル ネットワーク モデル、正規化フロー、その他の手法には、サンプル品質、サンプリング速度、対数尤度、トレーニングの安定性という点で独自の利点があります。
最近、「拡散モデル」が画像と音声生成の最も一般的な代替手段となっています。
より少ない推論ステップで、GAN に匹敵するサンプル品質と自己回帰モデルに匹敵する対数尤度を実現できます。
写真
論文アドレス: https://www.php.cn/link/46994a3cd8d943d03b44b8fc9792d435
離散状態空間と連続状態空間の拡散モデルは提案されていますが、最近の研究は主に連続状態空間 (実数値画像や波形データなど) で動作するガウス拡散過程に焦点を当てています。
離散状態空間拡散モデルは、テキストおよび画像のセグメンテーションの分野で研究されてきましたが、大規模なテキストおよび画像の生成タスクにおいて競争力のあるソリューションであることはまだ証明されていません。 。
Google 研究チームは、新しい離散ノイズ除去拡散確率モデル (D3PM) を提案しました。
研究では、著者らは遷移マトリックスの選択が、画像領域とテキスト領域の両方で結果を向上させることができる重要な設計上の決定であることを実証しています。
さらに、変分下限と補助クロスエントロピー損失を組み合わせた新しい損失関数を提案しました。
テキストに関しては、このモデルは文字レベルのテキスト生成で良好な結果を達成しており、大語彙の LM1B データセットに拡張できます。
CIFAR-10 画像データセットでは、最新のモデルは連続空間 DDPM モデルのサンプル品質に近づき、連続空間 DDPM モデルの対数尤度を超えています。
写真
プロジェクト著者
Arnaud Pannatier
Arnaud Pannatier は、2020 年 3 月に上司の François Fleuret の機械学習グループで博士号の勉強を始めました。
彼は最近、スーパー ネットワークを使用して MLPMixer がさまざまな長さの入力を処理できるようにする HyperMixer を開発しました。これにより、モデルは順列不変の方法で入力を処理できるようになり、入力の長さに応じて線形にスケールする注意深い動作をモデルに与えることが示されています。
EPFL では、物理学の学士号とコンピュータ サイエンスおよびエンジニアリング (CSE-MASH) の修士号を取得しました。
#参考:
以上が拡散モデルはアルゴリズムの問題を克服し、AGI は遠くありません。 Google Brain が迷路の最短経路を見つけるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Nothing は、サブブランド CMF の下にアクセサリーの新しい波を正式に発売する準備をしているようです。最近、140W のブリックがオンラインで登場し、電子商取引プラットフォーム Flipkart に掲載されているようですが、今度は新しい 100W 急速充電器が登場しました。

暗号通貨の人気により、仮想通貨取引プラットフォームが登場しています。世界の上位10の仮想通貨取引プラットフォームは、トランザクションの量と市場シェアに従って次のようにランク付けされています:Binance、Coinbase、FTX、Kucoin、Crypto.com、Kraken、Huobi、Gate.io、Bitfinex、Gemini。これらのプラットフォームは、幅広い暗号通貨の選択から、さまざまなレベルのトレーダーに適したデリバティブ取引に至るまで、幅広いサービスを提供しています。

Nothing のサブブランドである CMF by Nothing は、現在そのポートフォリオに充電器を 1 台しか持っていません。 Power 65WGaNですが、近々新作が追加されるようです。 X ユーザーの @AbhishekMarkets が発見したように、同社は別の GaN c をリストに掲載しています。

ゴマのオープンエクスチェンジを中国語に調整する方法は?このチュートリアルでは、コンピューターとAndroidの携帯電話の詳細な手順、予備的な準備から運用プロセスまで、そして一般的な問題を解決するために、セサミのオープン交換インターフェイスを中国に簡単に切り替え、取引プラットフォームをすばやく開始するのに役立ちます。

上位10の暗号通貨取引プラットフォームには、1。Okx、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

安全で信頼できるデジタル通貨プラットフォーム:1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10仮想通貨取引プラットフォーム2025:1。OKX、2。BINANCE、3。GATE.IO、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。

トップ10仮想通貨取引アプリのランキング:1。OKX、2。Binance、3。Gate.io、4。Kraken、5。Huobi、6。Coinbase、7。Kucoin、8。Crypto.com、9。Bitfinex、10。Gemini。プラットフォームを選択する際には、セキュリティ、流動性、処理料、通貨選択、ユーザーインターフェイス、カスタマーサポートを考慮する必要があります。
