最近、突然の拡大効果で話題を呼んだ「AI拡張」機能は、オートフィルのおもしろくて面白い結果が度々話題となり、ネット上でブームを巻き起こしています。ユーザーも積極的にこの機能を試し、その180度の大きな変化にも人々を驚かせ、話題の人気は高まり続けました。
これは、笑いと熱意を呼び起こすと同時に、AI が現実世界の問題を解決し、ユーザー エクスペリエンスを向上させるのに本当に役立つかどうかに人々が常に注目していることを意味します。 AIGC テクノロジーの急速な発展に伴い、AI 適用シナリオの実装が加速しており、新たな生産性革命が到来することを示しています。
最近、Meitu の WHEE などの製品は、AI 画像拡大機能と AI 画像修正機能を開始し、簡単なプロンプト入力で、ユーザーは画像を修正したり、画面要素を削除したり、画面を自由に拡大したりすることができます。素晴らしいエフェクトにより、ツールを使用する敷居が大幅に下がり、ユーザーに効率的で高品質な画像作成体験をもたらします。
MiracleVision (Qixiang Intelligence) が結果を排除します
MiracleVision (Qixiang Intelligence) が結果を置き換えます効果 前
MiracleVision (Qixiang Intelligence) 置換効果
MiracleVision (Qixiang Intelligence) AI 画像変更効果
強力なモデル機能により、思いどおりに画像を編集できます
Meitu AI 部分再描画モデルは、拡散モデル (Diffision Model) テクノロジーに基づいて完全なインペイント & アウトペイント モデル フレームワークを構築し、内部領域を再描画しますターゲットの削除や外部領域の拡張などのタスクは 1 つのソリューションに統合され、いくつかの特定の効果の問題に対して特別な最適化設計が行われます。
MiracleVision モデルは、Vincentian グラフ モデルです。最初の畳み込み層を変換し、unet 全体を微調整することで修復タスクに適応させることができますが、これには、unet の元の重みを変更する必要があります。トレーニング データの量が不十分な場合、モデルのパフォーマンスの低下につながります。
したがって、MiracleVision の既存の生成機能を最大限に活用するために、チームは部分再描画モデルで MiracleVision の unet モデルを直接微調整するのではなく、controlnet を使用してマスクの入力ブランチを追加します。制御されている。
同時に、トレーニング コストを節約し、推論を高速化するために、圧縮されたコントロールネット モジュールをトレーニングに使用して、計算量を可能な限り削減します。トレーニング プロセス中に、unet モデルのパラメーターが固定され、controlnet モジュールのみが更新され、最終的にはモデル全体が修復できるようになります。
Meitu AI はモデル アーキテクチャ図を部分的に再描画します
アウトペイント タスクはクロップ タスクの逆の操作です。トリミング タスクは、元の画像を画像の境界に沿ってトリミングし、必要な部分のみを保持し、画像コンテンツの減算操作を行うことです。一方、外側のタスクは、モデルの生成機能を使用して、画像の境界に沿って外側に拡張することです。何もないところから作成する 元々存在しないコンテンツを抽出することは、画像コンテンツの追加操作です。
本質的に、アウトペイント タスクは、マスク領域がイメージの周縁に配置されることを除いて、特別なインペイント タスクとみなすこともできます。
MiracleVision AI 拡張効果アウトペイントタスクのマスク領域は画像からしか描画できないため ガイダンス情報は内部的に取得され、他の方向は画像の境界となるため、生成されるコンテンツはよりランダムで発散的になります。画像の周囲の空白領域を埋めて画像拡大の精度を確保するために、チームはシーン認識アルゴリズムを利用して画像のスタイルと内容を推測し、画像内容の相関関係を最大限に利用してコピーしました。拡張されたエッジでミラーリングすることで元の画像のピクセルを復元し、ランダム ノイズを重ねてモデルに適切な初期事前分布を提供することで、生成されたコンテンツの合理性を確保し、境界遷移をよりスムーズにします。さまざまなトレーニング戦略により、オブジェクトの生成と削除を自由に制御します
一般的な拡散モデルは、修復タスクを実行するときに、削除するよりも置き換えることに優れています。特定のターゲットを削除する必要がある場合、モデルは、特にマスクが存在しない場合、マスク領域に元から存在しないいくつかの新しい前景ターゲットを簡単に描画できます。エリア この現象は、これらのターゲットがプロンプトに表示されない場合でも、エリアが比較的大きい場合に特に顕著です。その理由は主に次の 3 つの側面です:
1. トレーニング セットのプロンプトは通常、画像にあるもののみを説明し、画像にないものは説明しないため、トレーニングされたモデルはベースにすることができます。 on プロンプトにターゲットを生成するように指示するのは簡単ですが、ターゲットの生成を停止するのは困難です。分類子なしのガイダンス戦略を使用しても、不要なオブジェクトを否定的な単語に追加することでこのターゲットの生成を抑制できますが、考えられるすべてのターゲットを否定的な単語に書き込むことは不可能であるため、モデルは依然としていくつかの予期しないターゲットを生成する傾向があります。 ;
2. 訓練データの分布から、大規模な画像訓練セット内のほとんどの画像は前景と背景で構成されているため、純粋な背景画像が占める割合は比較的小さく、これは拡散がモデルはトレーニング中に潜在的なルールを学習しました。つまり、画像内にターゲットの前景が存在する可能性が高く (プロンプトで言及されていない場合でも)、これによりモデルは修復タスクを実行するときに、出力画像がトレーニング中の分布に近づくように、マスク領域に何かが生成される可能性が高くなります。
3. 塗りつぶされるマスク領域の形状には、特定の意味情報も含まれる場合があります。たとえば、他のガイダンスがなければ、モデルはマスク領域に新しい猫を猫の形で塗りつぶす傾向が強くなり、除去タスクが失敗します。
MiracleVision でターゲット生成とターゲット除去の両方を実行できるようにするために、チームはマルチタスク トレーニング戦略を採用しました:
1. トレーニング段階では、マスク領域がターゲットに該当するとき、純粋な背景領域が少ない場合は、特定のプロンプト キーワードをトリガー ガイド ワードとして追加し、モデルの推論段階で、このキーワードを前方ガイド ワードとしてプロンプト埋め込みに追加して、モデルがより多くの背景領域を生成するように促します。
2. 純粋な背景画像がトレーニング セット全体で占める割合は比較的小さいため、トレーニングへの寄与を高めるために、各トレーニング バッチで、一定の割合の背景画像が手動でサンプリングされ、背景画像に追加されます。トレーニングにより、背景画像の割合が全体的に安定したままになります。
3. マスク形状に対するモデルのセマンティック依存性を減らすために、トレーニング段階で異なる形状のさまざまなマスクがランダムに生成され、マスク形状の多様性が高まります。
高精度テクスチャ生成、より自然な融合
トレーニング セット内の高精細テクスチャ データは、トレーニング データ全体のほんの一部にすぎないため、インペイント タスクを実行する場合、通常、非常に豊かなテクスチャを含む結果は生成されません。その結果、元のテクスチャが豊かなシーンに不自然な融合や境界感が生じます。
この問題を解決するために、チームは独自に開発したテクスチャ詳細モデルをガイド モデルとして使用し、MiracleVision による生成品質の向上とオーバーフィッティングの抑制を支援し、生成された領域が生成された領域の間に収まるようにしました。元の画像の領域と他の領域をより適切に組み合わせることができます。
元の画像 vs テクスチャ詳細を追加していない画像 vsMiracleVision 拡大画像効果
#より速く、より良い効果、より効率的なインタラクション!
拡散モデル ソリューションでは、通常、推論中に複数ステップの逆拡散プロセスが必要となり、その結果、単一画像の処理に時間がかかりすぎます。生成品質を維持しながらユーザー エクスペリエンスを最適化するために、Meitu Imaging Research Institute (MT Lab) チームは AI 部分再描画テクノロジーの特別なチューニング ソリューションを作成し、最終的にパフォーマンスと効果の最適なバランスを実現しました。
まず、MiracleVision の前処理、後処理および推論プロセスにおける多数の行列計算が、可能な限り並列コンピューティングのために GPU に移植されるため、効果的に計算が高速化され、計算量が削減されます。 CPUの負荷。同時に、画像を組み立てるプロセス中に、可能な限りレイヤーを融合し、FlashAttendant を使用してビデオ メモリの使用量を削減し、推論パフォーマンスを向上させ、さまざまな NVIDIA グラフィックスの GPU コンピューティング パワーの使用を最大化するためにカーネル実装を調整します。カード。
さらに、MiracleVision は、独自に開発したモデル パラメーター定量化手法を利用して、明らかな精度の損失なしに 8 ビットに量子化されます。 GPU グラフィックス カードによって 8 ビット量子化のサポートが異なるため、混合精度戦略を革新的に採用して、さまざまなサーバー リソース環境下で最適な演算子を適応的に選択し、全体的な高速化の最適なソリューションを実現します。
ユーザー入力画像の解像度が高い場合、サーバー リソースと時間コストの制限により、元の解像度で直接推論を実行することは困難です。この点に関して、チームはまず画像の解像度を適切なサイズに圧縮し、次に MiracleVision に基づいて推論を実行し、次に超解像度アルゴリズムを使用して画像を元の解像度に復元し、次に元の画像との画像融合を実行しました。これにより、鮮明な画像が生成され、推論プロセス中のメモリ使用量と実行時間が節約されます。
Meitu は Samsung と緊密に協力し、AI を使用した新しいモバイル画像編集エクスペリエンスを作成します
サムスン電子は1月25日、中国でGalaxy S24シリーズの新製品発表会を開催した。 MeituはSamsungとの協力を深め、Samsungの新型Galaxy S24シリーズの携帯電話アルバム向けに新たなAI画像編集エクスペリエンスを構築するとともに、Meitu画像研究所(MT Lab)が独自に開発したジェネレーティブ編集機能「AI画像拡張機能」と「AI画像修正機能」を提供します。モバイル画像の編集と作成のための新しいスペースを開くために正式にリリースされました。
AI画像編集機能により、編集したい画像を長押しするだけで、画像の移動や削除、サイズ変更などが簡単に行えます。さらに、写真の水平線が垂直でない場合、AI画像拡大機能は、ユーザーが角度を調整した後、写真の欠落領域をインテリジェントに補い、写真の構図を修正します。
MiracleVision がもたらす AI 機能に基づいて、Meitu はユーザーが携帯電話でプロレベルの編集効果を簡単に達成し、よりパーソナライズされた写真作品を作成できるよう支援するだけでなく、AI 全体の推進と強化も継続していきます。携帯電話業界における画像処理能力。
Meitu Imaging Research Institute (MT Lab) の強力な技術力を利用して、MiracleVision は半年以内にバージョン 4.0 までバージョンアップされました。今後も Meitu は、電子商取引、広告、ゲーム、その他の業界におけるユーザー エクスペリエンスの向上に努め、さまざまなシナリオの実務者がワークフローの効率を向上できるよう支援していきます。
以上がMeitu AI部分再描画技術公開!好きなように変更してください!美しい絵を部分的に描き直せばやりたい放題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。