テキスト生成タスクは、通常、教師強制を使用してトレーニングされます。このトレーニング方法を使用すると、モデルはトレーニング プロセス中にポジティブなサンプルのみを確認できます。ただし、生成ターゲットと入力の間には通常、特定の制約があり、これらの制約は通常、文の主要な要素に反映されます。たとえば、クエリ書き換えタスクでは、「マクドナルドを注文」を「KFC を注文」に変更することはできません。抑制の重要な要素はブランドのキーワードです。対照学習を導入し、生成プロセスに負のサンプル パターンを追加することにより、モデルはこれらの制約を効果的に学習できます。
既存の比較学習方法は、主に文全体のレベル [1][2] に焦点を当てており、文内の単語単位のエンティティは無視されています。下図の例は、文中のキーワードの重要な意味を示しています。入力文の場合、そのキーワードが置き換えられると (例: 宇宙論 -> 天体物理学)、文の意味が変化するため、意味空間における ( の位置)分布で表される)も変化します。文内で最も重要な情報であるキーワードは、意味分布の点に対応し、文の分布の位置を大部分決定します。同時に、場合によっては、既存の対照的な学習目標がモデルにとって簡単すぎるため、モデルが肯定的な例と否定的な例の間の重要な情報を真に学習できなくなることがあります。
これに基づいて、Ant Group、北京大学などの研究者は、多粒度の比較生成方法を提案し、階層的な比較構造を設計しました。学習レベルで実行され、文の粒度で学習の全体的な意味論が強化され、単語の粒度で局所的な重要な情報が強化されます。研究論文がACL 2022に採択されました。
論文アドレス: https://aclanthology.org/2022.acl-long.304.pdf
私たちのメソッドは古典的なものに基づいています。 CVAE テキスト生成フレームワーク [3][4] では、各文をベクトル空間の分布にマッピングすることができ、文内のキーワードをこの分布からサンプリングされた点とみなすことができます。文の粒度の比較を通じて潜在空間ベクトル分布の表現を強化する一方で、構築されたグローバルキーワードグラフを通じてキーワードポイントの粒度の表現を強化し、最後にマハラノビス距離を使用して比較します。キーワードポイントとセンテンスの分布 構成レベル間のコントラストにより、2 つの粒度で情報表現を強化します。最終的な損失関数は、3 つの異なる対照的な学習損失を追加することによって取得されます。
atインスタンス レベルでは、元の入力 x、ターゲット出力
、および対応する出力負のサンプルを使用して、文の粒度 ペア
# を比較します。以前のネットワークを使用して、以前の分布
## ( ## として記録) を学習します。
##; 事後ネットワークを通じて近似の事後分布を学習する
と
## はそれぞれ # として記録されます。 #################そして###########################。文粒度比較学習の目標は、事前分布と正の事後分布の間の距離をできる限り小さくすると同時に、事前分布と負の事後分布の間の距離を最大化することです。対応する損失関数は次のとおりです。次のようになります。
ここで、 は陽性サンプルまたは陰性サンプル、 は温度係数です。ここでは、KL ダイバージェンス (カルバック・ライブラーダイバージェンス)[5] を使用して、2 つの分布間の直接距離を測定します。
#キーワードの詳細な比較学習
キーワード ネットワーク
## という文には、他の文がある可能性があります。はキーワード
と同じであり、これらの文は集合
を形成します。、この
#のすべての文は肯定的な出力例と否定的な出力文のペアです。
それぞれに肯定的なキーワードの例
# があります。 ##############################と除外キーワードの例
##。このようにして、コレクション全体で、任意の出力文
について、対応するキーワード # と見なすことができます。
## とその周囲のすべての
(文間の正と負の関係を通じて関連付けられている)
の間の正のエッジです。周囲の
# の間に負のエッジ ## があります
。これらのキーワード ノードとその直接エッジに基づいて、キーワード グラフを構築できます
各ノードの初期化として BERT embedding[7] を使用します
、MLP 層を使用して学習します各エッジの表現
#。グラフ アテンション (GAT) レイヤーと MLP レイヤーを通じて、キーワード ネットワーク内のノードとエッジを繰り返し更新します。各反復では、最初に次の方法でエッジ表現を更新します:
#ここで
## は
になります。 #####################または######################## ###。
次に、更新されたエッジに基づいて
、グラフ アテンション レイヤーを通じて各ノードの表現を更新します。
#ここで
# はすべて学習可能なパラメータです。
# は注意の重みです。勾配消失の問題を防ぐために、に残りの接続を追加して、express
# を取得しました。 ###########################最後の反復のノード表現をキーワードの表現として使用し、u として示します。
#キーワード比較
から得られます。
。入力文の出力ポジティブサンプルから抽出されたキーワードを# として記録します。これは、上記のキーワードネットワークに含まれます。負の隣接ノードは
# として記録され、次に
、キーワード粒度の比較学習損失は次のように計算されます:
## ここで、
は
を参照するために使用されます。 ### #########または################## , h(・) は距離の尺度を表すために使用されます。キーワード粒度の比較学習では、コサイン類似度を選択して 2 点間の距離を計算します。 ## 上記の文粒度とキーワード粒度のコントラスト学習はそれぞれ分布とポイントで実装されるため、2 つの粒度を独立して比較すると、差が小さいため強調効果が弱まる可能性があることに注意してください。この点において、我々は、点と分布の間のマハラノビス距離 [8] に基づいて、異なる粒度間の比較関連を構築し、対象の出力キーワードと文の分布の間の距離が可能な限り小さくなり、偽者間の距離が小さくなるようにします。粒径を独立して比較するため、コントラストが消えてしまうという欠点を補い、その分布を可能な限り小さくしています。具体的には、クロス粒度マハラノビス距離対比学習は、文の事後意味分布を可能な限り狭めることを望んでいます。 との間の距離をできるだけ広げながら、
#Here
は、 # を参照するためにも使用されます。 ## または
##、h(・) はマハラノビスです距離 。 #実験と分析 ##実験結果 私たちは、Douban (対話) [9]、QQP (言い換え) [10][11]、RocStories (ストーリーテリング) [12] の 3 つの公開データセットで実験を行い、すべて SOTA 効果を達成しました。私たちが比較するベースラインには、従来の生成モデル (例: CVAE[13]、Seq2Seq[14]、Transformer[15])、事前トレーニング済みモデルに基づく手法 (例: Seq2Seq-DU[16]、DialoGPT[17]、BERT-GEN) が含まれます。 [7]、T5[18])および対照学習に基づく方法(例:グループごと[9]、T5-CLAPS[19])。自動評価指標として、BLEU スコア[20]と文ペア間の BOW 埋め込み距離 (極値/平均/貪欲)[21]を計算し、その結果を次の図に示します。 キーワードを使用するかどうか、キーワードネットワークを使用するかどうか、マハラノビス距離を使用するかどうかを分析しました。アブレーション解析実験が実施され、その結果、これら 3 つの設計が最終結果において重要な役割を果たしていることがわかりました。実験結果を下の図に示します。 階層的対照学習の役割に関して、ランダムにサンプリングされたケースを視覚化し、t-sne による次元削減後に次の図を得ました [22]。この図から、入力文の表現は抽出されたキーワードの表現に近いことがわかり、文中の最も重要な情報としてのキーワードが通常、意味分布の位置を決定することがわかります。さらに、対照学習では、トレーニング後、入力文の分布が正のサンプルに近づき、負のサンプルから遠ざかることがわかります。これは、対照学習が意味分布の修正に役立つことを示しています。 最後に、さまざまなキーワードをサンプリングすることの影響を調査します。以下の表に示すように、入力された質問に対して、TextRank抽出法とランダム選択法により意味分布を制御するための条件としてキーワードを与え、生成されたテキストの品質をチェックします。キーワードは文の中で最も重要な情報単位です。キーワードが異なると意味分布も異なり、異なるテストが生成されます。選択したキーワードが多いほど、生成される文はより正確になります。一方、他のモデルで生成された結果も下の表に示します。 ### QQP データセットに対して手動評価も使用しました。3 人のアノテーターがそれぞれ T5-CLAPS、DialoGPT、Seq2Seq-DU、および私たちのモデルの結果を生成しました。結果は次のとおりです。マークが付けられ、結果は以下のようになります:
アブレーション分析
#視覚分析
#キーワード重要度分析
この記事複数のテキスト生成データセットに対する競合ベースライン作業を上回る、粒度を超えた階層的対比学習メカニズムを提案します。この研究に基づいたクエリ書き換えモデルは、Alipay 検索の実際のビジネス シナリオに正常に実装され、顕著な結果を達成しました。 Alipay の検索サービスは広範な領域をカバーしており、ドメイン特性が顕著です。ユーザーの検索クエリ表現とサービス表現の間には文字どおりの大きな違いがあり、キーワードに基づいて直接照合することで望ましい効果を達成することは困難です (たとえば、ユーザーが「新車発売クエリ」というクエリを入力すると、「新車発売クエリ」というサービスを呼び出すことができません)、クエリ書き換えの目標は、ユーザーが入力したクエリを次のような方法に書き換えることです。ターゲット サービスによりよく一致するように、クエリの意図を変更せずにサービス式に近づけます。いくつかの言い換え例を次に示します。
以上がAlipay の検索エクスペリエンスを向上させるために、Ant と北京大学は階層型比較学習テキスト生成フレームワークを使用していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。