目次
論文詳細
入力画像について、同じ命令の下で、異なる方法の違いを比較たとえば、指示の最初の行は「昼を夜に変える」です:
ホームページ テクノロジー周辺機器 AI レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

Feb 05, 2024 pm 03:33 PM
iphone ai 電車

写真を撮ってテキスト コマンドを入力すると、携帯電話が自動的に写真のレタッチを開始しますか?

この魔法の機能は、Apple が新たにオープンソース化した画像編集ツール「MGIE」から提供されます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

背景の人物を削除

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

ピザを追加テーブルへ

近年、画像編集においてはAIの進歩が著しい。一方で、AI はマルチモーダル ラージ モデル (MLLM) を通じて画像を入力として受け取り、視覚的な認識応答を提供することで、より自然な画像編集を実現できます。一方、指示ベース編集技術では、詳細な説明や領域マスクに頼らず、ユーザーが直接指示を出して編集方法や目的を表現できるようになります。この方法は人間の直感的な方法により近いため、非常に実用的です。これらの革新的なテクノロジーを通じて、AI は画像編集の分野で徐々に人々の右腕アシスタントになりつつあります。

Apple は、上記のテクノロジーからインスピレーションを得て、MLLM を使用して不十分な指示ガイダンスの問題を解決する MGIE (MLLM ガイド付き画像編集) を提案しました。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

  • #論文タイトル: マルチモーダル大規模言語モデルによる命令ベースの画像編集のガイド
  • 論文リンク: https://openreview.net/pdf?id=S1RKWSyZ2Y
  • プロジェクトのホームページ: https://mllm-ie.github.io/

MGIE (Mind-Guided Image Editing) は、図 2 に示すように、MLLM (Mind-Language Linking Model) と拡散モデルで構成されます。 MLLM は、簡潔な表現指示を習得することを学習し、明確で視覚的に適切なガイダンスを提供します。拡散モデルは、意図したターゲットの潜在的な想像力を使用して画像編集を実行し、エンドツーエンドのトレーニングを通じて同期的に更新されます。このように、MGIE は固有の視覚的導出の恩恵を受け、人間による曖昧な指示を解決して賢明な編集を実現できます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

人間のコマンドに従って、MGIE は Photoshop スタイルの変更、グローバルな写真の最適化、およびローカル オブジェクトの変更を実行できます。例として下の写真を見てみましょう。追加のコンテキストがなければ「健康的」の意味を理解することは困難ですが、MGIE は「野菜のトッピング」をピザと正確に関連付け、人間の期待に応じて編集できます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

これは、クック氏が少し前に決算会見で表明した「野心」を思い出させます。 「これは Apple にとって生成 AI における大きなチャンスですが、これ以上の詳細には触れたくありません。」彼が明らかにした情報には、Apple が生成 AI ソフトウェア機能を積極的に開発しており、これらの機能が 2024 年後半に Apple で利用可能になることが含まれています。提供された。

最近 Apple が発表した一連の生成 AI 理論研究結果と組み合わせると、Apple が次にリリースする新しい AI 機能が楽しみになりそうです。

論文詳細

本研究で提案するMGIE手法は、与えられた命令Xにより入力画像Vを目的画像に編集することができます。 レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか? 。これらの不正確な命令については、MGIE の MLLM が学習導出を実行して、簡潔な表現命令 ε を取得します。言語と視覚のモダリティの間に橋渡しをするために、研究者らはεの後に特別なトークン [IMG] を追加し、編集ヘッド レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか? を使用してそれらを変換しました。変換された情報は、MLLM の基礎となる視覚的想像力として機能し、望ましい編集目標を達成するために拡散モデル レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?# を導きます。 MGIE は、視覚的に認識されたファジー コマンドを理解して、合理的な画像編集を実行できるようになります (アーキテクチャ図は上の図 2 に示されています)。

命令の簡潔な表現

機能の調整と命令の調整を通じて、MLLM はクロスモーダルな認識とビジョンを提供できます。関連する回答。画像編集の場合、この研究では、画像の言語入力として「[命令] だとこの画像はどうなるでしょうか」というプロンプトを使用し、編集コマンドの詳細な説明を導き出します。ただし、これらの説明は長すぎることが多く、ユーザーの意図を誤解させることもあります。より簡潔な説明を得るために、この研究では事前トレーニング済みサマライザーを適用して、MLLM に要約出力の生成方法を学習させます。このプロセスは次のように要約できます:

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

# 潜在的な想像力による画像編集

#この研究では、編集責任者

を使用して [IMG] を実際の視覚的なガイダンスに変換します。ここで、レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか? は、MLLM からの連続視覚トークンを意味的に意味のある潜在 U = {u_1, u_2, ..., u_L} にマッピングするシーケンスツーシーケンス モデルであり、編集ガイドとして機能します。 :レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

視覚的想像力によって画像編集を導くプロセスを実現するために、この研究では拡散モデルの使用を検討します

, このモデルは、変分オートエンコーダー (VAE) を含みながら、潜在空間でのノイズ除去拡散問題も解決できます。 レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?#アルゴリズム 1 は、MGIE の学習プロセスを示しています。 MLLM は、命令損失 L_ins を介してコンパクトな命令 ε を導出します。 [IMG]

の根底にある想像力を活用することで、そのモダリティを変換し、結果として得られる画像の レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか? 合成を導きます。編集損失 L_edit は拡散トレーニングに使用されます。ほとんどの重みを凍結できるため (MLLM 内のセルフ アテンション ブロック)、パラメータ効率の高いエンドツーエンドのトレーニングが実現します。 レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

#実験評価レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

入力画像について、同じ命令の下で、異なる方法の違いを比較たとえば、指示の最初の行は「昼を夜に変える」です:

表 1 は、データセット IPr2Pr のみでトレーニングされたモデルのゼロショット編集結果を示しています。 Photoshop スタイルの変更を伴う EVR および GIER の場合、編集結果はブートストラップの意図に近づきました (たとえば、LGIE は EVR で 82.0 という高い CVS を達成しました)。 MA5k でのグローバル画像最適化の場合、関連するトレーニング トリプルが不足しているため、InsPix2Pix は扱いにくいです。 LGIE と MGIE は LLM の学習を通じて詳細な説明を提供できますが、LGIE はまだ単一のモダリティに限定されています。画像にアクセスすることで、MGIE はどの領域を明るくするか、どのオブジェクトをより鮮明にするかなどの明示的な指示を導き出すことができ、その結果、パフォーマンスが大幅に向上します (例: 66.3 SSIM が高く、写真距離が 0.3 低くなります)。同様の結果が MagicBrush でも見つかりました。 MGIE はまた、正確な視覚画像と、ターゲットとして指定されたターゲットの変更 (たとえば、82.2 DINO の高い視覚的類似性と 30.4 CTS の高いグローバル サブタイトル アラインメント) から最高のパフォーマンスを獲得します。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

#特定の目的のための命令ベースの画像編集を研究するために、表 2 は各データセットのモデルを微調整します。 EVR と GIER では、すべてのモデルが Photoshop スタイルの編集タスクに適応すると改善されました。 MGIE は、編集のあらゆる面で一貫して LGIE を上回ります。これは、表現力豊かな指示を使用した学習が画像編集を効果的に強化できること、および最大限の強化のための明示的なガイダンスを得るには視覚認識が重要な役割を果たすことも示しています。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

α_X と α_V の間のトレードオフ。画像編集には 2 つの目的があります。1 つは命令としてターゲットを操作すること、もう 1 つは入力画像の残りの部分を保持することです。図 3 は、命令 (α_X) と入力一貫性 (α_V) の間のトレードオフ曲線を示しています。この研究では、α_X を 7.5 に固定し、α_V を [1.0, 2.2] の範囲で変化させました。 α_V が大きいほど、編集結果は入力に似ていますが、命令との一貫性は低くなります。 X 軸は CLIP の方向の類似性、つまり編集結果が指示とどの程度一致しているかを計算し、Y 軸は CLIP ビジュアル エンコーダと入力画像の間の特徴の類似性を表します。特定の表現命令を使用すると、実験はすべての設定で InsPix2Pix を上回ります。さらに、MGIE は明示的な視覚的なガイダンスを通じて学習できるため、全体的な改善が可能になります。これにより、より多くの入力が必要な場合でも、関連性の編集が必要な場合でも、堅牢な改善がサポートされます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

アブレーション研究

さらに、研究者らはまた、命令を表現する際のさまざまなアーキテクチャ FZ、FT、および E2E のパフォーマンスを考慮したアブレーション実験も実施しました。結果は、MGIE が FZ、FT、および E2E で一貫して LGIE を上回っていることを示しています。これは、重要な視覚認識を備えた表現力豊かな指示が、すべてのアブレーション設定にわたって一貫した利点があることを示唆しています。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

#MLLM ブートストラップが役立つのはなぜですか?図 5 は、入力またはグラウンドトゥルース ターゲット画像と表現命令の間の CLIP-Score 値を示しています。入力画像の CLIP-S スコアが高いほど、その指示が編集ソースに関連していることを示し、ターゲット画像との位置合わせが良好であれば、明確で関連性のある編集ガイダンスが提供されます。示されているように、MGIE は入力/目標との一貫性が高く、その表現力豊かな指示が役立つ理由が説明されています。 MGIE は、期待される結果を明確に説明することで、画像編集を最大限に改善することができます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

#人間による評価。自動指標に加えて、研究者らは手動評価も実施しました。図 6 は、生成された表現命令の品質を示し、図 7 は、命令追従、グラウンドトゥルースの関連性、および全体的な品質の観点から、InsPix2Pix、LGIE、および MGIE の画像編集結果を比較しています。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

推論の効率。 MGIE は画像編集の推進に MLLM に依存していますが、簡潔な表現命令 (32 トークン未満) のみが導入されているため、効率は InsPix2Pix に匹敵します。表 4 に、NVIDIA A100 GPU での推論時間のコストを示します。単一入力の場合、MGIE は 10 秒で編集タスクを完了できます。データの並列処理を増やすと、必要な時間は同様になります (バッチ サイズ 8 で 37 秒)。プロセス全体は 1 つの GPU (40GB) だけで完了できます。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

#定性的な比較。図 8 は、使用されたすべてのデータセットの視覚的な比較を示し、図 9 はさらに、LGIE または MGIE の表現命令を比較します。

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

レア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?

プロジェクトのホームページでは、研究者がさらに多くのデモも提供しています (https://mllm-ie.github) .io/)。研究の詳細については、元の論文を参照してください。

以上がレア! Apple のオープンソース画像編集ツール MGIE は iPhone で利用できるようになりますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SQLに列を追加するための構文は何ですか SQLに列を追加するための構文は何ですか Apr 09, 2025 pm 02:51 PM

sqlに列を追加するための構文は、table table_name add column_name data_type [not null] [default default_value];です。 table_nameはテーブル名、column_nameは新しい列名、data_typeはデータ型であり、nullはnull値が許可されているかどうかを指定しない、デフォルトのdefault_valueがデフォルト値を指定します。

SQLクリアテーブル:パフォーマンスの最適化のヒント SQLクリアテーブル:パフォーマンスの最適化のヒント Apr 09, 2025 pm 02:54 PM

SQLテーブルクリアパフォーマンスを改善するためのヒント:削除の代わりにTruncateテーブルを使用し、スペースを解放し、ID列をリセットします。カスケードの削除を防ぐために、外部のキーの制約を無効にします。トランザクションカプセル化操作を使用して、データの一貫性を確保します。バッチはビッグデータを削除し、制限で行数を制限します。クリアリング後にインデックスを再構築して、クエリ効率を改善します。

sqlに列を追加するときにデフォルト値を設定する方法 sqlに列を追加するときにデフォルト値を設定する方法 Apr 09, 2025 pm 02:45 PM

新しく追加された列のデフォルト値を設定します。3つのテーブルステートメントを使用します。列の追加を指定し、デフォルト値を設定します:table table_name add column_name data_type default_valueを変更します。制約句を使用してデフォルト値を指定します。テーブルテーブルを変更する列列の追加column_name data_type constraint default_constraint default default_value;

削除ステートメントを使用して、SQLテーブルをクリアします 削除ステートメントを使用して、SQLテーブルをクリアします Apr 09, 2025 pm 03:00 PM

はい、削除ステートメントを使用してSQLテーブルをクリアできます。手順は次のとおりです。クリアするテーブルの名前にtable_nameを置き換えます。

phpmyAdminはデータテーブルを作成します phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Redisメモリの断片化に対処する方法は? Redisメモリの断片化に対処する方法は? Apr 10, 2025 pm 02:24 PM

Redisメモリの断片化とは、再割り当てできない割り当てられたメモリ内に小さな自由領域の存在を指します。対処戦略には、Redisの再起動:メモリを完全にクリアしますが、サービスを割り当てます。データ構造の最適化:Redisに適した構造を使用して、メモリの割り当てとリリースの数を減らします。構成パラメーターの調整:ポリシーを使用して、最近使用されていないキー価値ペアを排除します。永続性メカニズムを使用します:データを定期的にバックアップし、Redisを再起動してフラグメントをクリーンアップします。メモリの使用量を監視する:問題をタイムリーに発見し、対策を講じる。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

Oracleデータベースの作成方法Oracleデータベースの作成方法 Oracleデータベースの作成方法Oracleデータベースの作成方法 Apr 11, 2025 pm 02:36 PM

Oracleデータベースを作成するには、一般的な方法はDBCAグラフィカルツールを使用することです。手順は次のとおりです。1。DBCAツールを使用してDBNAMEを設定してデータベース名を指定します。 2. SyspasswordとSystemPassWordを強力なパスワードに設定します。 3.文字セットとNationalCharactersetをAL32UTF8に設定します。 4.実際のニーズに応じて調整するようにMemorySizeとTableSpacesizeを設定します。 5. logfileパスを指定します。 高度な方法は、SQLコマンドを使用して手動で作成されますが、より複雑でエラーが発生しやすいです。 パスワードの強度、キャラクターセットの選択、表空間サイズ、メモリに注意してください

See all articles