目次
方法の紹介
ホームページ テクノロジー周辺機器 AI わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

Apr 12, 2023 pm 03:46 PM
ai モデル

最近、テキストから画像へのモデルが人気の研究方向になってきており、大規模な自然の風景であっても、新しい風景の画像であっても、単純なテキスト記述を使用して自動的に生成される場合があります。

その中でも、想像力豊かなシーンのレンダリングは、自然に見えるように新しいシーンに特定のテーマ (物体、動物など) のインスタンスを合成する必要がある難しいタスクです。シーン。

大規模なテキストから画像へのモデルの中には、自然言語で書かれたテキスト プロンプトに基づいて、高品質で多様な画像合成を実現するものもあります。これらのモデルの主な利点は、画像内でさまざまなポーズで表示される犬のさまざまなインスタンスと「犬」という単語の関連付けなど、多数の画像とテキストの説明のペアから学習された強力な意味事前確率です。

これらのモデルの合成機能は前例のないものですが、特定の参照被写体を模倣し、同じ被写体で異なるシーンの異なるインスタンスを含む新しい画像を合成する機能がありません。既存モデルの出力領域の表現能力には限界があることがわかります。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

この問題を解決するために、Google とボストン大学の研究者は、「パーソナライズされた」テキストから画像への拡散モデル DreamBooth を提案しました。ユーザー固有の画像生成ニーズに適応します。

論文アドレス: https://arxiv.org/pdf/2208.12242.pdf

プロジェクトアドレス: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

この研究の目標は、モデルの言語 - ビジュアル辞書を拡張して、新しい語彙を組み込むことができます。 ユーザーが生成したい特定のテーマにバインドします。新しい辞書がモデルに埋め込まれると、以下の図 1 に示すように、これらの単語を使用して、特定のトピックの斬新で現実的なイメージを合成しながら、さまざまなシーンでそれらを文脈化しながら、主要な識別特徴を維持できます。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

具体的には、この研究では、特定の被写体の画像をモデルの出力ドメインに埋め込み、一意の識別子を使用して画像を合成できるようにします。この目的を達成するために、この研究では、まれなトークン識別子で特定のトピックを表現する方法を提案し、テキスト画像から低解像度を生成するという 2 つのステップで動作する、事前にトレーニングされた拡散ベースのテキストから画像へのフレームワークを微調整します。 、超解像度 (SR) 拡散モデルを適用します。

この調査では、まず入力画像と一意の識別子 (「A [V] などのサブジェクト クラス名) を含むテキスト ヒントを使用して、低解像度のテキストから画像へのモデルを微調整しました」犬") 。モデルがクラス名を特定のインスタンスにオーバーフィッティングしたりセマンティック ドリフトを防ぐために、この研究では、モデルに埋め込まれたクラスの事前セマンティクスを利用して、モデルのさまざまなインスタンスを生成することを促進する、自己生成されたクラス固有の事前保存損失を提案します。特定のトピックの下で同じクラス。

2 番目のステップでは、入力画像の低解像度バージョンと高解像度バージョンを使用して超解像度コンポーネントを微調整します。これにより、モデルはシーンの主題の小さいながらも重要な詳細に対して高い忠実度を維持できます。

この研究で提案されている具体的な方法を見てみましょう。

方法の紹介

テキスト説明のない 3 ~ 5 枚のキャプチャ画像を考慮して、このペーパーでは、細部の忠実度が高く、テキストによるプロンプトを備えた画像を生成することを目的としています。変更をガイドするための新しい画像です。この研究では入力画像に制限を課しておらず、対象画像にはさまざまなコンテキストが含まれる可能性があります。その方法を図 3 に示します。出力画像は、被写体の位置などの元の画像を変更したり、色、形状などの被写体のプロパティを変更したり、被写体の姿勢、表情、素材、その他の意味上の変更を変更したりできます。

より具体的には、このメソッドは、被写体 (たとえば、特定の犬) のいくつかの画像 (通常は 3 ~ 5 枚の画像) と対応するクラス名 (たとえば、犬のカテゴリ) を入力として受け取り、次の値を返します。主題を参照する一意の識別子をエンコードする、微調整/パーソナライズされたテキストから画像へのモデル。次に、推論中に、一意の識別子をさまざまな文に埋め込んで、さまざまなコンテキストでトピックを合成できます。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

調査の最初のタスクは、トピック インスタンスをモデルの出力ドメインに埋め込み、トピックを一意の識別子にバインドすることです。この研究では、モデルの微調整プロセスを監視する新しい方法の設計に加えて、識別子の設計方法を提案します。

画像の過剰適合と言語ドリフトの問題を解決するために、この研究では、拡散モデルが同じクラスを継続的に生成することを促進する損失 (Prior-Preservation Loss) も提案しています。異なるインスタンスを使用することで、モデルの過剰適合や言語のドリフトなどの問題が軽減されます。

画像の詳細を保持するには、モデルの超解像度 (SR) コンポーネントを微調整する必要があることが研究でわかりました。この記事は事前の情報に基づいて完成しています。 -トレーニングされたImagenモデル。具体的なプロセスを図 4 に示します。同じ被写体の 3 ~ 5 枚の画像を指定すると、テキストから画像への拡散モデルが次の 2 つのステップで微調整されます。

#レア トークン識別子はトピックを表しますわずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

この研究では、トピックのすべての入力画像を「[識別子] [クラス名詞]」としてマークします。ここで、[ 識別子 ] はトピックにリンクされた一意の識別子であり、[クラス名詞] はトピックの大まかなクラス記述子 (例: 猫、犬、時計など) です。この研究では、クラス事前分布をトピックに関連付けるために、文内でクラス記述子を特に使用しています。

エフェクト表示

以下は、Dreambooth の安定した拡散実装です (プロジェクトのリンクを参照)。定性的結果: トレーニング画像は「Textual Inversion」ライブラリから取得されます:

トレーニングが完了すると、「写真の写真」というプロンプトが表示されます。 sks コンテナ」、モデルが生成されます。コンテナの写真は次のとおりです。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

場所に「ビーチ上の sks コンテナの写真」を追加します。プロンプトが表示されると、コンテナがビーチに表示されます。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

緑のコンテナは色がシンプルすぎます。赤を追加したい場合は、プロンプト「赤い sks コンテナの写真」を入力して完了します。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

プロンプト「sks コンテナの上の犬」を入力してください。子犬を箱の中に座らせます:

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

以下は論文に示されている結果の一部です。さまざまなアーティスト スタイルで犬に関する芸術的な写真を生成します:

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

この研究では、入力画像に現れないさまざまな表現を合成することもでき、モデルの外挿能力を実証しています。

わずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。

詳細については、原論文を参照してください。

以上がわずか 3 つのサンプルと 1 つの文で、AI は写真のようにリアルな画像をカスタマイズできます。Google は非常に新しい普及モデルに取り組んでいます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です 「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin(Doge)は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務(DEFI)(TVL)の総価値が激しく減少しました。 「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78%下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37%減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04%と20減少しました。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

See all articles