拡散モデルは、主要な新しいアプリケーションの到来をもたらしました -
Sora がビデオを生成するのと同じように、ニューラル ネットワークのパラメーターを生成し、AI の最下層に直接浸透します。
これは、シンガポール国立大学の You Yang 教授のチームと UCB、メタ AI 研究所、その他の機関による最新のオープンソース研究結果です。
具体的には、研究チームはニューラル ネットワーク パラメーターを生成するための拡散モデル p(arameter)-diff を提案しました。
これを使用してネットワーク パラメーターを生成すると、速度は直接トレーニングよりも最大 44 倍速く、パフォーマンスも劣りません。
このモデルがリリースされると、すぐに AI コミュニティで激しい議論が巻き起こり、サークルの専門家たちは、一般の人が Sora を見たときと同じように、このモデルに対して驚くべき態度を示しました。
これは基本的にAIが新しいAIを生み出すのと同じだ、と真っ向から叫ぶ人もいた。
AI の巨人 LeCun も、その結果を見て、本当にかわいいアイデアだと称賛しました。
実は、p-diff も Sora と同じ重要性を持っており、同じ研究室の Fuzhao Xue 博士 (Xue Fuzhao) が詳しく説明しています:
Sora は高次元データ、つまりビデオを生成し、Sora をワールド シミュレーター (1 次元からの AGI に近い) にします。
そして、この取り組みであるニューラル ネットワークの普及は、モデル内でパラメーターを生成することができ、別の新しい重要な次元から AGI に向けて移行する、メタワールドクラスの学習者/オプティマイザーになる可能性を秘めています。
本題に戻りますが、p-diff はどのようにしてニューラル ネットワーク パラメーターを生成するのでしょうか?
この問題を明確にするには、まず拡散モデルとニューラル ネットワークの動作特性を理解する必要があります。
拡散生成プロセスは、ランダムな分布から高度に特異的な分布への変換であり、複合ノイズの追加により、視覚情報は単純なノイズ分布に削減されます。
ニューラル ネットワークのトレーニングもこの変換プロセスに従い、ノイズの追加によって劣化する可能性があります。この機能に触発されて、研究者は p-diff 法を提案しました。
構造的な観点から見ると、p-diff は標準的な潜在拡散モデルに基づいて研究チームによって設計され、オートエンコーダーと組み合わせられています。
研究者はまず、トレーニングされ良好に実行されたネットワーク パラメーターの一部を選択し、それらを 1 次元ベクトル形式に展開します。
次に、オートエンコーダーを使用して、拡散モデルのトレーニング データとして 1 次元ベクトルから潜在表現を抽出します。これにより、元のパラメーターの主要な特徴を捉えることができます。
研究者らは、トレーニング プロセス中に、順方向および逆方向のプロセスを通じて p-diff にパラメータの分布を学習させ、完了後、拡散モデルは、視覚情報を生成するプロセスと同様に、ランダム ノイズからこれらの潜在的な表現を合成します。
最後に、新しく生成された潜在表現は、エンコーダーに対応するデコーダーによってネットワーク パラメーターに復元され、新しいモデルの構築に使用されます。
次の図は、p-diff を通じて 3 つのランダム シードを使用して最初からトレーニングされた ResNet-18 モデルのパラメーター分布であり、異なる層と同じ層間の違いを示しています。 . パラメータ間の分布パターン。
p-diff によって生成されたパラメータの品質を評価するために、研究者らは 8 つのデータセットに対してそれぞれ 2 サイズの 3 種類のニューラル ネットワークを使用してテストを行いました。
以下の表で、各グループの 3 つの数字は、元のモデル、統合モデル、および p-diff で生成されたモデルの評価結果を表します。
結果からわかるように、p-diff によって生成されたモデルのパフォーマンスは、基本的に手動でトレーニングされた元のモデルに近いか、それよりも優れています。
効率という点では、精度を損なうことなく、p-diff は従来のトレーニングよりも 15 倍速く ResNet-18 ネットワークを生成し、44 倍速く Vit-Base を生成します。
追加のテスト結果は、p-diff によって生成されたモデルがトレーニング データとは大きく異なることを示しています。
下図 (a) からわかるように、p-diff によって生成されたモデル間の類似度は、元のモデル間の類似度、および p-diff と元のモデル間の類似度よりも低くなります。モデル。
(b)と(c)から、微調整やノイズ付加手法と比較して、p-diffの類似性も低いことがわかります。
これらの結果は、p-diff がトレーニング サンプルを単に記憶するのではなく、実際に新しいモデルを生成することを示しており、優れた汎化能力を備えており、トレーニング データとは異なる新しいモデルを生成できることも示しています。
現在、p-diff のコードはオープンソース化されているので、興味のある方は GitHub で確認してみてください。
論文アドレス: https://arxiv.org/abs/2402.13144
GitHub: https ://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion
以上がAIの最下層に侵入せよ! NUS Youyang のチームは拡散モデルを使用してニューラル ネットワーク パラメーターを構築しており、LeCun はそれを気に入っていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。