Stable Diffusion 3 技術レポートがリリース: Sora と同じアーキテクチャの詳細が明らかに-AI-php.cn

モデルの機能はさらに改善可能です

ネチズン: オープンソースへの取り組みは予定通り完了しました、ありがとう

ホームページ

テクノロジー周辺機器

Stable Diffusion 3 技術レポートがリリース: Sora と同じアーキテクチャの詳細が明らかに

王林

Mar 07, 2024 pm 12:01 PM

sd3 mmdit ヴィンセント図モデル

もうすぐ、「Vincentian グラフィックスの新しい王様」である Stable Diffusion 3 の技術レポートがここに公開されます。

全文は計28ページに及び、誠意が詰まっています。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

# 「古いルール」、プロモーションポスター (⬇️) はモデルを使用して直接生成され、テキストレンダリング機能を誇示します:

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

それでは、DALL・E 3 や Midjourney v6 よりも強力な SD3 は、どのようにしてテキストやコマンドに従うスキルを強化するのでしょうか?

技術レポートで明らかになった点:

これはすべて、マルチモーダル拡散 Transformer アーキテクチャ MMDiT に依存しています。

画像とテキストの表現に異なる重みのセットを適用することで、以前のバージョンよりも強力なパフォーマンスの向上が達成され、これが成功の鍵です。

レポートを開いて詳細を確認してみましょう。

テキストレンダリング機能を向上させるための DiT の微調整

SD3 のリリースの開始時に、公式はそのアーキテクチャが Sora と同じ起源を持ち、拡散型 Transformer-DiT であることを明らかにしました。

これで答えが明らかになります:

ヴィンセントグラフモデルはテキストモードと画像モードの両方を考慮する必要があるため、Stability AI は DiT よりも一歩進んで、新しいアーキテクチャ MMDiT を提案します。

ここでの「MM」は「マルチモーダル」を指します。

以前のバージョンの Stable Diffusion と同様に、公式は 2 つの事前トレーニングされたモデルを使用して、適切なテキストと画像表現を取得します。

テキスト表現のエンコードは、2 つの CLIP モデルと T5 モデルを含む 3 つの異なるテキストエンベッダー (エンベッダー) を使用して行われます。

画像トークンのエンコードは、改良されたオートエンコーダーモデルを使用して完了します。

テキストと画像の埋め込みは概念的には同じものではないため、SD3 はこれら 2 つのモードに対して 2 セットの独立した重みを使用します。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

(一部のネチズンは苦情を申し立てました: このアーキテクチャ図は「人類完成プロジェクト」を開始するようです、ええと、はい、一部の人々は「『新世紀エヴァンゲリオン』を見たばかりです。私は今クリックしました」このレポートに入力する情報については、")

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

本題に戻りますが、上の図に示すように、これはモダリティごとに 2 つの独立した変圧器があることに相当しますが、それらのシーケンスは、アテンション操作のために連結されます。

このようにして、両方の表現をそれぞれの空間で機能させながら、他方の表現を考慮することができます。

最終的に、この方法を通じて、画像とテキストトークンの間で情報が「流れる」ことができ、出力時のモデルの全体的な理解とテキストレンダリング機能が向上します。

そして、前に示したように、このアーキテクチャはビデオやその他のモードに簡単に拡張できます。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

具体的なテストでは、MMDiT が DiT の中で DiT よりも優れていることが示されています:

トレーニングプロセス中の視覚的な忠実性とテキストの配置の両方が備わっています。 UViT や DiT などのテキストから画像へのバックボーン。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

パフォーマンスを継続的に向上させるためのフローテクノロジーの重み付けを見直しました

リリースの初めに、拡散トランスフォーマーアーキテクチャに加えて、公式は SD3 に次の機能が組み込まれていることも明らかにしました。フローマッチング。

「流れ」とは何でしょうか？

本日公開された論文のタイトルで明らかになったように、SD3 は「Rectified Flow」(RF) を使用します。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

ICLR2023に採択された「極めて簡素化されたワンステップ生成」の新しい拡散モデル生成手法です。

これにより、トレーニング中にモデルのデータとノイズを線形軌道で接続できるようになり、サンプリングに使用するステップが少なくなる、より「直線的な」推論パスが得られます。

RF に基づいて、SD3 はトレーニングプロセス中に新しい軌道サンプリングを導入します。

著者は、これらの部分がより困難な予測タスクを完了すると想定しているため、軌道の中央部分により多くの重みを与えることに重点を置いています。

この生成メソッドを、複数のデータセット、メトリクス、サンプラー構成にわたる 60 の他の拡散軌跡メソッド (LDM、EDM、ADM など) に対してテストしたところ、次のことが判明しました。

一方、以前の RF メソッドは、数ステップのサンプリングスキームですが、ステップ数が増えると相対的なパフォーマンスが低下します。

対照的に、SD3 の再重み付けされた RF バリアントでは、一貫してパフォーマンスが向上しています。

モデルの機能はさらに改善可能です

当局は、再重み付けされた RF 手法と MMDiT アーキテクチャを使用したテキストから画像への生成に関するスケーリング研究を実施しました。

トレーニングされたモデルの範囲は、4 億 5,000 万のパラメーターを含む 15 モジュールから、80 億のパラメーターを含む 38 モジュールまで多岐にわたります。

彼らは、モデルのサイズとトレーニングステップが増加するにつれて、検証損失が滑らかな下降傾向を示すこと、つまり、モデルが継続的な学習を通じてより複雑なデータに適応することを観察しました。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

#これがモデル出力のより有意義な改善につながったかどうかをテストするために、自動画像位置合わせメトリクス (GenEval) と人間の評価も行いました。好みの評価 (ELO) 。

結果は次のとおりです:

この 2 つの間には強い相関関係があります。つまり、検証損失は、モデル全体のパフォーマンスを予測するための非常に強力な指標として使用できます。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

さらに、ここでの拡張傾向は飽和の兆候を示していないため (つまり、モデルサイズが増加してもパフォーマンスは依然として向上しており、限界に達していません) 、関係者は楽観的です：

SD3 のパフォーマンスは将来的に向上し続ける可能性があります。

最後に、技術レポートではテキストエンコーダの問題についても言及しています。

推論に使用されるメモリ集約型の T5 テキストエンコーダである 47 億パラメータを削除することにより、SD3 のメモリ要件が大幅に削減される可能性があります。削減されましたが、同時にパフォーマンスの損失は非常にわずかです (勝率は 50% から 46% に低下しました)。

ただし、テキストレンダリング機能の観点から、当局は依然として T5 を削除しないことを推奨しています。これは、T5 がないとテキスト表現の勝率が 38% に低下するためです。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

要約すると、SD3 の 3 つのテキストエンコーダーのうち、テキスト (および非常に詳細なシーン説明画像) を含む画像を生成する場合、T5 が最も大きく貢献します。

ネチズン: オープンソースへの取り組みは予定通り完了しました、ありがとう

SD3レポートが発表されるとすぐに、多くのネチズンはこう言いました:

安定性AIオープンソースへの取り組みが予定通り果たせたことは大変喜ばしいことであり、今後も末永く運営していただきたいと願っています。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

OpenAI の名前を発表したばかりの人がまだいます:

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

さらに嬉しいことです。コメントエリアで言及されている:

SD3 モデルのすべての重みをダウンロードできます。現在の計画では、パラメータは 8 億個、パラメータは 20 億個、パラメータは 80 億個です。

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

速度はどうですか?

ああ、技術レポートには次のように記載されています:

80 億 SD3 で 24GB RTX 4090 で 1024*1024 画像を生成するには 34 秒かかります (50 サンプリングステップ)——しかしこれは、最適化を行わない初期の予備的な推論テストの結果にすぎません。

レポートの全文: https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable Diffusion 3 Paper.pdf。
参考リンク:
[1]https://stability.ai/news/stable-diffusion- 3-研究論文。
[2]https://news.ycombinator.com/item?id=39599958。

以上がStable Diffusion 3 技術レポートがリリース: Sora と同じアーキテクチャの詳細が明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7722

Java チュートリアル

1642

CakePHP チュートリアル

1396

Laravel チュートリアル

1289

PHP チュートリアル

1233

Related knowledge

クリエイティブプロジェクトのための最高のAIアートジェネレーター（無料＆amp;有料） Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

ベストAIチャットボットが比較されました（chatgpt、gemini、claude＆amp; more） Apr 02, 2025 pm 06:09 PM

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

ChatGpt 4 oは利用できますか？ Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

トップAIライティングアシスタントは、コンテンツの作成を後押しします Apr 02, 2025 pm 06:11 PM

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します