検索システムの基礎となる検索想起は、効果向上の上限を決定します。既存の大規模リコール結果に差別化された増分価値をもたらし続ける方法は、私たちが直面している主な課題です。マルチモーダルな事前トレーニングとリコールの組み合わせは、私たちに新たな地平を切り開き、オンライン効果に大幅な改善をもたらします。
マルチモーダル事前トレーニングは、学界と産業界での研究の焦点です。異なるモダリティ間の意味論的な対応により、視覚的な質問応答、視覚的な推論、画像とテキストの検索など、さまざまな下流タスクのパフォーマンスを向上させることができます。 グループ内では、マルチモーダル事前トレーニングの研究と応用も行っています。 淘宝網のメイン検索シナリオでは、ユーザーが入力したクエリとリコール対象の商品との間に自然なクロスモーダル検索要件がありますが、以前はさらに多くのタイトルが存在していました。商品には統計的特徴が使用され、画像などのより直感的な情報は無視されました。 しかし、視覚的要素を含む一部のクエリ (白いドレス、花柄のドレスなど) では、誰もが検索結果ページの最初の画像に魅了されると思います。
#淘宝網のメイン検索シーン1画像がより目立つ位置を占める一方で、画像には白や花などの視覚要素など、タイトルに含まれていない情報が含まれる場合があります。後者については、タイトルに情報はあるが、表示制限により完全に表示できないという 2 つの状況を区別する必要があり、この状況はシステム リンクでの製品のリコールには影響しません。タイトルには情報がなく、画像が存在する、つまり画像はテキストに対して増加をもたらすことができます。私たちが注目する必要があるのは後者です。
私たちの解決策は次のとおりです:
##デュアルフロー構造と同様に、モデルの下部はツインタワーで構成され、上部はクロスモーダルエンコーダを介してツインタワーと統合されています。デュアルストリーム構造とは異なり、ツインタワーは単一のモードで構成されていません。アイテムタワーにはタイトルと画像のデュアルモードが含まれています。タイトルと画像は結合されてエンコーダに入力されます。この部分は、シングルストリームモデル。クエリとタイトルの間の意味関係とギャップをモデル化するために、クエリとアイテムのツインタワーのエンコーダーを共有し、言語モデルを個別に学習します。
事前トレーニングでは、適切なタスクを設計することも重要です。一般的に使用されるタイトルと画像の画像とテキストのマッチング タスクを試してみました。比較的高い一致度を達成できますが、下流のベクトル呼び出しタスクにはほとんど効果がありません。これは、クエリを使用してアイテムを呼び出す場合、アイテムのタイトルと画像が一致するかどうかは重要な要素ではありません。したがって、タスクを設計するときは、クエリとアイテムの関係をより考慮します。現在、合計 5 つの事前トレーニング タスクが使用されています。このうち、
は類似度計算を表し、 は温度ハイパーパラメータを表し、 と mそれぞれ、スケーリング係数と緩和係数を表しますクエリ アイテム マッチング (QIM): クエリの下で最もクリック数が多かったアイテムがポジティブ サンプルとして使用され、バッチ内のその他のアイテムはポジティブ サンプルとして使用されます。現在のクエリに最も類似したものがネガティブ サンプルとして使用されます。 QIM はクロスモーダル エンコーダーの [CLS] トークンを使用して予測確率を計算し、クロス エントロピー損失を最小限に抑えます:
クエリ画像マッチング (QIM2): QIM サンプルでは、マスクはタイトルを削除して、クエリと画像の間のマッチングを強化します。 QIM2 はクロスエントロピー損失を最小限に抑えます:
モデルのトレーニング目標は、全体的な損失を最小限に抑えることです:
これらの 5 つのプレでは、 -条件 トレーニング タスクでは、MLM タスクと MPM タスクがアイテム タワーの上に配置され、タイトルまたは画像のトークンの一部がマスクされた後にクロスモーダル情報を使用して相互に回復する機能をモデル化します。クエリタワーの上には独立したMLMタスクがあり、クエリタワーとアイテムタワーのエンコーダを共有することで、クエリとタイトルの意味関係やギャップがモデル化されます。 QIC タスクは、2 つのタワーの内積を使用して、事前トレーニング タスクと下流ベクトル呼び出しタスクをある程度調整し、AM-Softmax を使用して、クエリの表現とクエリで最もクリックされたアイテムの表現との間の距離を縮めます。 、クエリと最もクリックされたアイテムの間の距離、その他のアイテムの距離を押しのけます。 QIM タスクはクロスモーダル エンコーダーの上に位置し、クロスモーダル情報を使用してクエリとアイテムの一致をモデル化します。計算量の都合上、通常のNSPタスクの陽性サンプルと陰性サンプルの比率は1:1ですが、さらに陽性サンプルと陰性サンプルの距離を広げるために、QICの類似度計算結果をもとに困難な陰性サンプルを構築します。タスク。 QIM2 タスクは QIM タスクと同じ位置にあり、テキストに関連して画像によってもたらされる増分情報を明示的にモデル化します。
#ベクトル再現モデル
は類似度の計算を表し、 は温度を表しますハイパーパラメータ 一般的な FineTune パラダイムに従って、事前トレーニングされたデータを変換しようとしました。ベクトルをツイン タワー MLP に直接入力し、大規模なネガティブ サンプリングとサンプル ソフトマックスと組み合わせて、マルチモーダル ベクトル再現モデルをトレーニングします。ただし、通常の小規模な下流タスクとは対照的に、ベクトル再現タスクのトレーニング サンプル サイズは数十億のオーダーと巨大です。 MLP のパラメーター量ではモデルのトレーニングをサポートできず、すぐに独自の収束状態に達しますが、その効果は良好ではないことが観察されました。同時に、事前トレーニングされたベクトルはベクトル再現モデルのパラメーターではなく入力として使用され、トレーニングの進行につれて更新することはできません。その結果、比較的小規模なデータに関する事前トレーニングは、大規模なデータに関する下流のタスクと競合します。 解決策はいくつかありますが、事前学習モデルをベクトル再現モデルに統合する方法がありますが、事前学習モデルのパラメータ数が多すぎるため、サンプルサイズが大きくなり、ベクトル再現モデルでは、ベクトル再現モデルでは使用できませんが、限られたリソースの制約の下では、合理的な時間内で定期的なトレーニングを実行する必要があります。もう 1 つの方法は、ベクトル再現モデルでパラメータ行列を構築し、事前トレーニングされたベクトルを行列にロードし、トレーニングの進行に応じて行列のパラメータを更新することです。調査した結果、この方法は工学的な実装の観点から比較的高価であることがわかりました。これに基づいて、事前トレーニングベクトルの更新を簡単かつ実現可能にモデル化するモデル構造を提案します。 始めましょうFC を使用して事前トレーニング ベクトルの次元数を削減します。事前トレーニングではなくここで次元数を削減する理由は、現在の高次元ベクトルが依然として負のサンプル サンプリングの許容可能なパフォーマンス範囲内にあるためです。この場合, ベクトル想起タスクの次元削減は、トレーニング目標とより一致します。同時に、クエリとアイテムの ID 埋め込み行列を導入し、埋め込み次元は縮小された事前トレーニング ベクトルの次元と一致し、ID と事前トレーニング ベクトルがマージされます。この設計の開始点は、大規模なトレーニング データをサポートするのに十分な量のパラメーターを導入すると同時に、トレーニングの進行に応じて事前トレーニング ベクトルを適応的に更新できるようにすることです。 ID ベクトルと事前トレーニング ベクターのみを使用して融合すると、モデルの効果は事前トレーニング ベクターのみを使用したツインタワー MLP の効果を超えるだけでなく、ベースライン モデル MGDSPR も超えます。より多くの機能が含まれています。さらに、これに基づいてさらに多くの機能を導入すると、効果がさらに向上します。 Recall@K : 評価データ セットは、トレーニング セットの翌日のデータで構成されています。まず、さまざまなクリックとトランザクションの結果です。同じクエリ内のユーザーを に集約し、モデルによって予測される上位 K の結果の割合を計算します。hit: ベクトル再現モデルの場合、Recall@K が一定レベルまで増加した後は、Query とItem の間の相関にも注意する必要があります。関連性の低いモデルは、たとえ検索効率を向上させることができたとしても、ユーザー エクスペリエンスの低下や、悪いケースの増加による苦情や世論の増加にも直面することになります。 オンライン相関モデルと一致するオフライン モデルを使用して、クエリと項目の間、およびクエリと項目カテゴリの間の相関を評価します。 いくつかのカテゴリから 1 つを選択します10億レベルの製品プールが構築され、事前トレーニングデータセットが構築されます。 私たちのベースライン モデルは、QIM および QIM2 タスクを追加して最適化された FashionBert です。クエリ ベクトルとアイテム ベクトルを抽出するときは、非パディング トークンに対してのみ平均プーリングを使用します。次の実験では、単一のタワーと比較して 2 つのタワーを使用したモデリングによってもたらされる利点を調査し、アブレーション実験を通じて主要な部品の役割を示します。 これらの実験から、次の結論を導き出すことができます: 10 億レベルのクリックされたページを選択しますベクトルリコールデータセットを構築します。各ページにはポジティブ サンプルとして 3 つのクリック項目が含まれており、クリック分布に基づいて製品プールから 10,000 のネガティブ サンプルがサンプリングされます。これに基づいて、トレーニング データの量をさらに拡大したり、ネガティブ サンプルのサンプリングを行ったりしても、効果の顕著な改善は観察されませんでした。 私たちのベースライン モデルは、メイン検索の MGDSPR モデルです。以下の実験では、ベースラインに対するベクトル再現とマルチモーダル事前トレーニングを組み合わせることによってもたらされる利益を調査し、アブレーション実験を通じて主要な部分の役割を示します。
これらの実験から、次の結論を導き出すことができます: ベクトル再現モデルの上位 1000 件の結果のうち、オンライン システムが再現できた項目をフィルタリングして除外したところ、残りの増分結果の相関関係は基本的に次のとおりであることがわかりました。変更なし。多数のクエリの下では、これらの増分結果が製品のタイトルを超えた画像情報をキャプチャし、クエリとタイトルの間の意味上のギャップにおいて一定の役割を果たしていることがわかります。 #クエリ: ハンサムなスーツ ## メインの検索シナリオのアプリケーション要件に応えて、クエリとアイテムのツインタワー入力を使用したテキスト画像の事前トレーニング モデルを提案しました。クロスモーダル エンコーダ: アイテム タワーがマルチモーダル グラフィックスとテキストを含む単一フロー モデルである構造。 Query-Item と Query-Image のマッチング タスク、および Query と Items のツインタワーの内積によってモデル化された Query-Item 多分類タスクにより、事前トレーニングが下流のベクトル想起タスクに近づくようになります。同時に、事前トレーニングされたベクトルの更新はベクトルリコールでモデル化されます。リソースが限られている場合でも、比較的少量のデータを使用した事前トレーニングでも、大量のデータを使用する下流タスクのパフォーマンスを向上させることができます。 製品の理解、関連性、並べ替えなどの主要な検索の他のシナリオでも、マルチモーダル テクノロジを適用する必要があります。私たちはこれらのシナリオの調査にも参加しており、マルチモーダルテクノロジーが将来的にはますます多くのシナリオにメリットをもたらすと信じています。 淘宝網メイン検索リコール チーム: このチームは、メイン検索リンク内のリンクのリコールと大まかな並べ替えを担当しており、現在の主な技術的方向性は次のとおりです。全空間サンプルの多目的パーソナライズされたベクトル想起、大規模な事前トレーニングに基づくマルチモーダル想起、対照学習に基づく同様のクエリ意味書き換え、および粗いランキングモデルなど。 ▐ 最初の調査
▐ モデル構造
実験分析
##▐ 評価指標
事前トレーニング済みモデルの効果は通常、下流タスクの指標を使用して評価され、別個の評価指標が使用されることはほとんどありません。ただし、この方法では、モデルのバージョンの各反復で、対応するベクトル想起タスクをトレーニングし、次にベクトル想起タスクの指標を評価する必要があるため、事前トレーニングされたモデルの反復コストは比較的高くなります。プロセス全体が非常に長くなります。事前トレーニングされたモデルのみを評価するための効果的な指標はありますか?最初にいくつかの論文で Rank@K を試しました. この指標は主に画像とテキストのマッチング タスクを評価するために使用されます: 最初に事前トレーニングされたモデルを使用して人工的に構築された候補セットをスコア付けし、次に に従ってソートされた上位 K の結果を計算します。画像とテキストにヒットするスコア。一致する陽性サンプルの割合。 Rank@K をクエリ項目マッチング タスクに直接適用したところ、結果が期待と一致しないことがわかりました。Rank@K を使用したより優れた事前トレーニング モデルは、下流のベクトル再現モデルでより悪い結果を達成する可能性があり、事前にガイドすることができません。トレーニング: モデルのトレーニングの反復。これに基づいて、事前トレーニング モデルの評価とベクトル再現モデルの評価を統合し、同じ評価指標とプロセスを使用することで、事前トレーニング モデルの反復を比較的効果的に導くことができます。
▐ 事前トレーニング実験
▐ ベクトルリコール実験
概要と展望
チーム紹介
以上が淘宝網の主な検索リコールシナリオにおけるマルチモーダルテクノロジーの探求の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。