ホームページ > テクノロジー周辺機器 > AI > Baidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践

Baidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践

王林
リリース: 2023-09-18 17:33:05
転載
1123 人が閲覧しました

百度商业多模态理解及 AIGC 创新实践

1. リッチメディアのマルチモーダルについての理解

まず、マルチモーダル コンテンツに対する私たちの認識を紹介しましょう。

1. マルチモーダル理解

コンテンツ理解機能を向上させ、広告システムがセグメント化されたシナリオでコンテンツをよりよく理解できるようにします。

百度商业多模态理解及 AIGC 创新实践

コンテンツ理解能力を向上させる場合、多くの実際的な問題に遭遇するでしょう:

  • There多くの商用ビジネス シナリオと業界が存在する 独立したモデリングは冗長であり、過剰適合につながる シナリオ間の分布の共通性と特異性のバランスをとる方法 統合されたモデリングを考慮する方法
  • #商用ビジュアル素材の周囲に不適切なテキストがあると、簡単に不適切なイラストが作成される可能性があります。
  • #このシステムは意味のない ID 機能が満載であり、一般化が不十分です。
  • リッチメディア時代には、ビジュアルセマンティクスを効果的に活用し、これらのコンテンツ機能、ビデオ機能、その他の機能をどのように統合するかが課題です。システム内のリッチメディアコンテンツの知覚強度を改善します。

優れたマルチモーダル基本表現とは何ですか。

百度商业多模态理解及 AIGC 创新实践

#優れたマルチモーダル表現とは何でしょうか?

データ適用範囲を幅の面で拡大し、奥行きの面で視覚効果を向上させ、シーン内のデータを確実に微調整する必要があります。

以前は、画像モダリティ、つまり自己回帰タスクを学習するようにモデルをトレーニングしてからテキスト タスクを実行し、次にいくつかのツインタワー モデルを適用してモーダルを閉じるという従来の考え方がありました。二人の関係。当時、テキスト モデリングは比較的単純で、誰もがビジョンをモデル化する方法を研究していました。 CNN に始まり、その後、bbox 法などの視覚的表現を改善するためにターゲット検出に基づくいくつかの手法が導入されましたが、この手法は検出能力が限られており、重すぎるため、大規模なデータのトレーニングには適していません。

2020年、2021年頃からVIT工法が主流になってきました。ここで言及しなければならないより有名なモデルの 1 つは、2020 年に OpenAI によってリリースされたモデルである CLIP です。これは、テキストとビジュアル表現のためのツインタワー アーキテクチャに基づいています。次に、コサインを使用して 2 つの間の距離を縮めます。このモデルは検索には非常に優れていますが、VQA タスクなどの論理的推論を必要とする一部のタスクでは能力が若干劣ります。

表現の学習: 自然言語から視覚への基本的な認識能力を向上させます。

百度商业多模态理解及 AIGC 创新实践

# 私たちの目標は、自然言語の基本的な視覚認識を向上させることです。データに関しては、当社の事業領域には数十億件のデータがありますが、まだまだ不十分であり、さらに拡充し、事業領域の過去データを導入し、整理・整理する必要があります。数百億レベルのトレーニングセットが構築されました。

VICAN-12B マルチモーダル表現生成モデルを構築しました。生成タスクを使用してテキストの視覚的復元を可能にし、テキスト上の視覚的表現の融合効果をさらに確実にし、自然言語の視覚効果、基本的な知覚能力。上の写真は模型の全体構造を示したもので、2つの塔と1つの塔の複合構造であることがわかります。なぜなら、最初に解決すべきは大規模な画像検索タスクだからです。左側のボックス内の部分はビジュアル パーセプトロンと呼ばれるもので、20 億パラメータのスケールを持つ ViT 構造です。右側は2層に分かれており、下段は検索用のテキストトランスフォーマーのスタック、上段は生成用のテキストトランスフォーマーのスタックです。モデルは生成タスク、分類タスク、画像比較タスクの 3 つのタスクに分かれており、これら 3 つの異なる目標に基づいてモデルがトレーニングされているため、比較的良好な結果が得られていますが、さらに最適化していきます。

効率的で統合され、転送可能なマルチシナリオのグローバル表現スキームのセット。

百度商业多模态理解及 AIGC 创新实践

LLM モデルは、ビジネス シナリオ データと組み合わせて、モデルの理解能力を向上させるために導入されています。 CV モデルはパーセプトロンであり、LLM モデルは理解者です。私たちのアプローチは、視覚的特徴をそれに応じて転送することです。なぜなら、先ほど述べたように、表現はマルチモーダルであり、大規模なモデルはテキストに基づいているためです。これを Wenxin LLM の大規模モデルに適応させるだけでよいため、対応する機能融合を実行するにはコンボ アテンションを使用する必要があります。大規模モデルの論理的推論機能を保持する必要があるため、大規模モデルを放置せず、ビジネス シナリオのフィードバック データのみを追加して、大規模モデルへの視覚機能の統合を促進するように努めます。いくつかのショットを使用してタスクをサポートできます。主なタスクは次のとおりです:

  • 画像の説明。実際、これは単なる説明ではなく、プロンプト リバース エンジニアリングです。高品質のグラフィック データは、後でテキストとして使用できます。グラフのためのより良いデータ ソースです。
  • 画像とテキストの相関制御。ビジネスでは画像情報の構成と理解が必要であるため、広告画像の検索用語と画像セマンティクスは実際に必要です。もちろん、これは画像やプロンプトに対して適切な判断を下すための非常に一般的な方法です。
  • 画像のリスクとエクスペリエンスのコントロールでは、画像の内容を比較的うまく説明できました。その後は、単に次の小さなサンプル データを使用するだけで済みます。リスク管理 移行により、リスク問題が伴うかどうかが明確になります。

# 次に、シーンベースの微調整に焦点を当てましょう。

2. シナリオベースの微調整

ビジュアル検索シナリオ、基本表現に基づくツインタワー微調整。

百度商业多模态理解及 AIGC 创新实践

基本的な表現に基づいて、大きなテキスト モデルと組み合わせて、さまざまなビジネス シーンの画像クリック フィードバック信号をラベラーとして使用して、部分的な順序を調整します。さまざまなシーンの写真とテキストの関係。主要な 7 つのデータセットに対して評価を実施しましたが、それらはすべて SOTA の結果を達成できます。

テキスト セグメンテーションからインスピレーションを得た並べ替えシナリオは、マルチモーダル機能のセマンティクスを定量化します。

百度商业多模态理解及 AIGC 创新实践

#表現だけでなく、仕分けシーンにおける視覚効果をいかに向上させるかが課題です。まず分野の背景を見てみましょう. 大規模離散 DNN は業界におけるランキング モデルの開発方向の主流であり、離散特徴はランキング モデル最適化の中核でもあります。テキストはモデルに入力され、単語の分割に基づいてトークン化され、他の個別の特徴と組み合わされて、良好な結果が得られます。ビジョンに関しては、同様にトークン化したいと考えています。

ID タイプの特徴は、実際には非常に個人化された特徴ですが、汎用化された特徴がより多用途になるにつれて、その特徴付けの精度が悪化する可能性があります。データとタスクを通じてこのバランスポイントを動的に調整する必要があります。つまり、データに最も関連するスケールを見つけて、それに応じて特徴を ID に「セグメント化」し、テキストなどのマルチモーダル特徴をセグメント化したいと考えています。そこで、この問題を解決するために、マルチスケール、マルチレベルのコンテンツ定量化学習手法を提案しました。

シナリオの並べ替え、マルチモーダル機能とモデルの融合 MmDict。

百度商业多模态理解及 AIGC 创新实践

主に 2 つのステップに分かれており、第 1 ステップは離散性を学び、第 2 ステップは積分を学びます。

ステップ 1: 離散を学習する

① スパース アクティベーションを使用して、複数の離散化信号で連続信号を表現します。つまり、スパース アクティベーションを使用して密なフィーチャをセグメント化し、対応するマルチモーダル コードブックには ID が含まれていますが、実際には argmax 演算のみが存在し、微分不可能な問題が発生します 同時に、特徴空間の崩壊を防ぐために、活性化されたニューロンと非活性化されたニューロン間の情報相互作用がが追加されます。

② STE 戦略を導入して、ネットワーク非微分可能性の問題を解決し、元の特徴を再構築し、半順序関係が変わらないことを確認します。

エンコーダ/デコーダ方式を通じて、密な特徴が連続的に量子化され、量子化された特徴が正しい方法で復元されます。半順序関係が復元前後で変化しないことを保証する必要があり、特定のタスクにおける特徴の量的損失をほぼ 1% 未満に抑えることができ、このような ID は現在のデータ分布をパーソナライズするだけでなく、一般化特性を持っています。

Step2: 融合の学習

① Sparse層のソートモデルと大規模に融合します。

次に、先ほど述べた隠れ層の再利用が直接最上部に配置されますが、その効果は実際には平均的です。 ID 化して量子化し、スパース フィーチャ レイヤーや他のタイプのフィーチャと融合すると、より良い効果が得られます。

② センター→残留の2段階とS-M-Lの3段階でロスを軽減します。

もちろん、いくつかの残差とマルチスケール手法も使用します。 2020 年から、私たちは定量化損失を徐々に下げ、昨年のある点を下回りました。これにより、大規模なモデルが特徴を抽出した後、この学習可能な定量化手法を使用して、意味論的な関連付け ID を使用して視覚コンテンツを特徴付けることができます。特徴は実際には非常に優れています。このようなレコメンドシステムのIDに関する探索的な調査手法も含め、現在の業務システムに適したものを提案していきます。

2. Qingduo

1. 商用 AIGC はマーケティングを深く統合してコンテンツの生産性を向上させ、効率と効果のつながりを最適化します

百度商业多模态理解及 AIGC 创新实践

#Baidu Marketing AIGC クリエイティブ プラットフォームは、インスピレーションから制作、配信まで完璧な閉ループを形成します。解体、生成、フィードバックに至るまで、AIGC の推進と最適化を行っています。

  • インスピレーション: AI の理解 (コンテンツとユーザーの理解)。 AI は、どのようなプロンプトが適切かを見つけるのに役立ちますか?素材に関する洞察からクリエイティブな方向性まで。
  • 作成: AIGC (テキスト生成、画像生成、デジタル ピープル、ビデオ生成など)
  • 配信: AI の最適化。経験的な試行錯誤から自動最適化へ。
2. マーケティング コピーの生成 = ビジネス プロンプト システム テキスト モデル

百度商业多模态理解及 AIGC 创新实践

優れたビジネス プロンプトには次の要素があります。

  • ナレッジ マップ: たとえば、車の販売、車にはどのようなビジネス要素が含まれている必要がありますか? ブランドだけでは十分ではなく、広告主が知りたいと考えているもの詳細 完全な知識システム;
  • スタイル (現在のプロパガンダ本体である「文学スタイル」など) は、実際には、判断しやすくするためにいくつかのラベルに抽象化する必要があります。主にどのようなマーケティング タイトルまたはマーケティングに関する説明です。
  • セールスポイント、セールスポイントは実際には製品の属性の特徴であり、それが消費の最も強力な理由です。
  • ユーザーのポートレートを、ターゲットの行動観の違いに基づいてさまざまなタイプに分類し、すばやくまとめて、新たに派生したタイプを洗練して A タイプを形成しますユーザーペルソナの。
3. 複合モーダル マーケティング デジタル ヒューマン動画生成、3 分でデジタル ヒューマンを作成

百度商业多模态理解及 AIGC 创新实践

##ビデオ生成は現在、比較的成熟しています。しかし、実際にはまだいくつかの問題があります。

  • スクリプトの作成: 人々の知識と経験によって制限され、高品質の執筆を維持するのが難しく、均一性が深刻です。
  • 材料の準備: 専門チーム、俳優、材料の予備、およびその他の高コストのツールが「アセンブリと合成」に重点を置いて強化されます。
  • ポストプロダクション: ポストプロダクションは手動の試行錯誤に依存しており、操作は煩雑です。

初期段階では、どのような動画を生成したいか、どのような人物を選択したいか、どのような人物を選択したいかをプロンプトを通じて入力します。たとえば、プロンプトを介してすべての入力を行うと、大規模なモデルを正確に制御して、その要求に基づいて対応するスクリプトを生成できます。

次に、デジタル ヒューマン ライブラリを通じて対応するデジタル ピープルを呼び出すことができますが、AI テクノロジーを使用して、顔の置き換え、背景の置き換え、アクセントなどのデジタル ピープルの多様性をさらに強化することもできます。最後に、スクリプト、デジタル唇形状の置換、背景の置換、顔の置換、およびビデオ抑制により、音声ビデオが生成されます。顧客はデジタル ヒューマンを使用して、製品に対応するいくつかのマーケティング セールス ポイントを紹介できます。このようにして、3 分でデジタル担当者になれるため、広告主のデジタル担当者になる能力が大幅に向上します。

4. マーケティング画像生成のマルチモーダル表現を組み合わせたマーケティング ポスター画像の生成

百度商业多模态理解及 AIGC 创新实践

大規模なモデルは、企業がマーケティング ポスターの生成を実現するのにも役立ちますおよび製品 背景の交換。私たちはすでに数百億のマルチモーダル表現を持っています. 中間層は私たちが学んだ拡散です. 私たちは優れた動的表現に基づいて unet を学習します.ビッグデータを使用したトレーニングの後、顧客は特にパーソナライズされたものを求めているため、いくつかの微調整方法も追加する必要があります。

当社は、顧客の微調整を支援するソリューション、大規模なモデルに小さなパラメータを動的にロードするソリューションを提供します。これは業界で一般的なソリューションでもあります。

まず、お客様に画像を生成する機能を提供し、編集またはプロンプトを通じて画像の背後にある背景を変更できます。

以上がBaidu ビジネスのマルチモーダル理解と AIGC イノベーションの実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート