Mollickは、新しい画像生成モデルの意味を提示します-AI-php.cn

ホームページ

テクノロジー周辺機器

Mollickは、新しい画像生成モデルの意味を提示します

Susan Sarandon

Apr 09, 2025 am 11:26 AM

Mollickは、新しい画像生成モデルの意味を提示します

最近、GoogleとOpenaiがリリースした新しい画像生成モデルは、広範囲の注目を集めており、そのコアテクノロジーは以前のモデルとはまったく異なります。イーサン・モリックの1つの有用なものの記事は、これらの新しいモデルの作業メカニズムと人間のユーザーへの影響を探ります。この記事では、Mollickの見解を解釈します。

マルチモーダル画像生成の可能性

Mollickは、従来の画像生成システムは複数のモデルの共同作業の産物であり、すべてのタスクを完了する単一のモデルではないと指摘しました。

「過去には、LLMによって大規模な言語モデル（LLM）生成画像が直接行われませんでした。AIはテキストプロンプトを独立した画像生成ツールに送信し、結果を表示しました。AIはテキストプロンプトの作成を担当しました。

拡散モデルは過去のものになっています

古いモデルは、主に拡散モデルの作業に依存しています。拡散モデルの動作原理は次のとおりです。画像をノイズに導入し、抽象処理を実行し、ノイズを削除して、コンピューターの既知の画像ライブラリのプロンプトに一致する画像を生成します。

ただし、この方法の制限は、生成された画像にはモデル独自の推論と判断がなく、既存の画像ライブラリの単純な組み合わせであり、貴重な情報を提供できないことです。

マルチモーダル制御の利点

今日、マルチモーダル制御技術の出現により、この状況が完全に変わりました。

Mollickは例を示しました。モデルに「象のない部屋と理由をマークする」ように促します。従来のモデルは、プロンプトのコンテキストを理解できないため、象を含む画像を生成します。生成されたテキストは、モデルの文字の理解もトレーニングデータに由来するため、意味のない、または架空の文字を含むことさえあります。

マルチモーダルモデルは、要件を満たす画像を正確に生成し、「ドアが小さすぎる」などのコメントを追加して、部屋に象がいない理由を説明します。

従来のモデルからのヒントの課題

従来のモデルの重要な欠点は、要素を除外する必要があると、命令を理解できないため、代わりにその要素が含まれることです。さらに、各変更または調整は、画像の基本構造を変更します。たとえば、キャラクターの帽子を変更すると、キャラクターの画像が完全に変化する可能性があります。

マルチモーダル画像生成モデルは、元の結果を保持することに基づいて微妙な調整を行うことができます。

環境保守

Mollickは別の例も示しています：カワウソが片手で特定のアイテムを保持してから、別のコンテキストと別のスタイルで表示されます。これは、マルチモーダル画像ジェネレーターの微細な統合機能を示しています。

完全なプレゼンテーション

Mollickは、ワカモレに関する推奨事項など、マルチモーダルモデルを使用して完全なプレゼンテーションを設計する方法も示しています。簡単な指示を提供するだけで、モデルはインターネット上の関連情報を検索し、統合し、最終結果を生成できます。

Mollickが言ったように、これはすぐに多くの人間の仕事の交代につながります。対応するフレームワークの確立を真剣に検討する必要があります。

以上がMollickは、新しい画像生成モデルの意味を提示しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。