段落の並べ替えは、情報検索の分野において非常に重要かつ困難なトピックであり、学術界や産業界から広く注目されています。段落ランキング モデルの有効性により、検索エンジンのユーザー満足度が向上し、質疑応答システムや読解などの情報検索関連アプリケーションに役立ちます。これに関連して、MS-MARCO、DuReader_retrieval などのいくつかのベンチマーク データセットは、段落並べ替えに関する関連研究作業をサポートするために構築されました。ただし、一般的に使用されるデータ セットのほとんどは英語のシーンに焦点を当てており、中国語のシーンについては、既存のデータ セットではデータ規模、きめ細かいユーザー アノテーション、および偽陰性例の問題の解決策に制限があります。これに関連して、実際の検索ログに基づいて、新しい中国語段落ランキング ベンチマーク データ セット T2Ranking を構築しました。
##T2ランキングは、300,000 を超える実際のクエリと 200 万のインターネットの段落で構成されており、プロのアノテーターによって提供された情報が含まれています。粒度の高い相関アノテーション。現在のデータといくつかのベースライン モデルは Github で公開されており、関連する研究成果は SIGIR 2023 のリソース ペーパーとして承認されました。
段落並べ替えタスクをサポートするために、段落並べ替えアルゴリズムのトレーニングとテスト用に複数のデータ セットが構築されます。広く使用されているデータセットのほとんどは英語のシーンに焦点を当てています。たとえば、最も一般的に使用されているデータセットは MS-MARCO データセットで、これには 500,000 以上のクエリ用語と 800 万以上の段落が含まれています。各クエリ用語には質問属性があります。 MS-MARCO データ公開チームは、クエリ用語ごとに標準回答を提供するアノテーターを募集し、その段落に手動で提供された標準回答が含まれているかどうかに基づいて、その段落がクエリ用語に関連しているかどうかを判断します。
中国語のシナリオでは、段落並べ替えタスクをサポートするために構築されたデータ セットもいくつかあります。たとえば、mMarco- Chinese は MS-MARCO データ セットの中国語翻訳バージョンであり、DuReader_retrieval データ セットは MS-MARCO と同じパラダイムを使用して段落ラベルを生成します。つまり、クエリ単語と段落のペアの相関関係は次のとおりです。人間が提供した標準的な回答から得られるスコア。マルチ CPR モデルには、3 つの異なるドメイン (電子商取引、エンターテイメント ビデオ、医療) からの段落検索データが含まれています。 Sogou 検索のログ データに基づいて、Sogou-SRR、Sogou-QCL、Tiangong-PDR などのデータセットも提案されています。
#図 1: 段落並べ替えタスクで一般的に使用されるデータ セットの統計既存のデータ セットは段落並べ替えアプリケーションの開発を促進してきましたが、いくつかの制限にも注意する必要があります:
1) これらのデータ セットは、段落並べ替えアプリケーションの開発を促進するものではありません。大規模な場合、特に中国のシナリオでは、ラベルまたは関連性ラベルに手動で注釈が付けられません。 Sogou-SRR と Tiangong-PDR には少量のクエリ データしか含まれていません。 mMarco- Chinese と Sogou-QCL は規模が大きいですが、前者は機械翻訳に基づいており、後者は関連性ラベルをユーザーのクリック データとして使用します。最近、Multi-CPR と DuReader_retrieval という 2 つの比較的大規模なデータセットが構築され、リリースされました。
2) 既存のデータセットには、詳細な相関アノテーション情報がありません。ほとんどのデータ セットは、バイナリ相関アノテーション (粒度の粗い)、つまり関連性があるか無関係であるかを使用します。既存の研究では、きめ細かい相関アノテーション情報が、さまざまなエンティティ間の関係をマイニングし、より正確なランキング アルゴリズムを構築するのに役立つことが示されています。また、マルチレベルのきめ細かいアノテーションを提供しないか、少量しか提供しない既存のデータセットもあります。たとえば、Sogou-SRR または Tiangong-PDR は、100,000 以下のきめ細かいアノテーションのみを提供します。
3) 偽陰性例の問題は、評価の精度に影響します。既存のデータセットは、多数の関連ドキュメントが無関係としてマークされる、偽陰性例の問題の影響を受けます。この問題は、大規模なデータにおける手動のアノテーションの数が少ないことが原因で発生し、評価の精度に大きな影響を与えます。たとえば、マルチ CPR では、各クエリ用語に対して 1 つの段落のみが関連するとマークされ、他の段落は無関係とマークされます。 DuReader_retrieval は、アノテーターが手動で最上位の段落セットを検査して再アノテーションを付けられるようにすることで、偽陰性の問題を軽減しようとします。
高品質のトレーニングと評価のための段落ランキング モデルをより適切にサポートするために、新しい中国語段落検索ベンチマーク データ セット - T2Ranking を構築してリリースしました。 。
データセット構築プロセスには、クエリ単語のサンプリング、文書の想起、段落の抽出、およびきめ細かい相関アノテーションが含まれます。同時に、データセットの品質を向上させるための複数の方法も設計しました。これには、段落のセマンティックな整合性と多様性を確保するためのモデルベースの段落分割方法とクラスタリングベースの段落重複排除方法の使用、およびアクティブラーニングの使用が含まれます。アノテーションベースのアノテーション、アノテーションの効率や品質を向上させる方法など。
1) 全体の流れ
図 2: Wikipedia ページの例。提示された文書には、明確に定義された段落が含まれています。
#2) モデルベースの段落分割方法
既存のデータセットでは、段落通常、自然な段落 (改行) に基づいて、または固定長のスライディング ウィンドウによってドキュメントから分割されます。ただし、どちらの方法でも、段落が意味的に不完全になったり、長すぎて複数の異なるトピックが含まれたりする可能性があります。この作業では、モデルベースの段落分割手法を採用しました。具体的には、文書のこの部分の構造が比較的明確であり、自然な段落も取得できるため、総合百科事典、百度百科事典、中国語版ウィキペディアを学習データとして使用しました。より良い定義。特定の単語をセグメンテーション ポイントにする必要があるかどうかを判断するために、セグメンテーション モデルをトレーニングしました。私たちはシーケンスラベル付けタスクのアイデアを使用し、モデルをトレーニングするための肯定的な例として各自然セグメントの最後の単語を使用しました。
3) クラスタリングベースの段落重複排除手法
類似性の高い段落に注釈を付けるのは冗長であり、意味がありません。段落ランキング モデルでは、類似性の高い段落コンテンツによってもたらされる情報獲得は限られているため、注釈の効率を向上させるためにクラスタリング ベースの段落重複排除方法を設計しました。具体的には、階層的クラスタリング アルゴリズムである Ward を使用して、類似したドキュメントの教師なしクラスタリングを実行します。同じクラス内の段落は非常に類似していると見なされ、関連性の注釈のために各クラスから 1 つの段落がサンプリングされます。この操作はトレーニング セットに対してのみ実行することに注意してください。テスト セットの場合は、抽出されたすべての段落に完全に注釈を付けて、偽陰性例の影響を軽減します。
#図 3: アクティブ ラーニングに基づくサンプリング アノテーション プロセス
4) アクティブ ラーニングに基づくデータ サンプリング アノテーション方法##実際には、すべてのトレーニング サンプルのパフォーマンスをさらに改善できるわけではないことが観察されています。ランキングモデル。モデルが正確に予測できるトレーニング サンプルの場合、後続のモデルのトレーニング ヘルプは制限されます。したがって、アクティブ ラーニングのアイデアを借用して、モデルがさらに注釈を付けるためにより有益なトレーニング サンプルを選択できるようにしました。具体的には、まず既存のトレーニング データに基づくクロスエンコーダー フレームワークに基づいてクエリ単語と段落の並べ替えモデルをトレーニングし、次にこのモデルを使用して他のデータを予測し、過剰な信頼スコア (情報コンテンツ) を削除しました。信頼性スコアが低い (ノイズの多いデータ)、保持された段落にさらに注釈を付け、このプロセスを繰り返します。
データセット統計
ランキングは、300,000 を超える実際のクエリと 200 万のインターネット パラグラフで構成されています。このうち、トレーニング セットには約 250,000 のクエリ ワードが含まれ、テスト セットには約 50,000 のクエリ ワードが含まれます。クエリ用語の長さは最大 40 文字で、平均長は約 11 文字です。同時に、データセット内のクエリ単語は、医療、教育、電子商取引などを含む複数の分野をカバーしており、クエリ単語の多様性スコア (ILS) も計算しました。のほうが高いです。 175 万の文書から 230 万以上の段落がサンプリングされ、各文書は平均 1.3 段落に分割されました。トレーニング セットでは、クエリ用語あたり平均 6.25 段落に手動で注釈が付けられましたが、テスト セットでは、クエリ用語あたり平均 15.75 段落に手動で注釈が付けられました。
#図 4: データ セット内のクエリ ワードのドメイン分布図 5: 相関アノテーションの分布
取得したデータセットに対して、一般的に使用されるいくつかの段落ランク付けモデルのパフォーマンスをテストしました。また、段落想起と段落強調における既存の手法も評価しました。ソートの両方の段階。 1) 段落再現実験 既存の段落再現モデルは、疎再現モデルと密再現モデルに大別できます。リコールモデル。 次の再現モデルのパフォーマンスをテストしました。 これらのモデルのうち、QL と BM25 は疎再現モデルであり、その他のモデルは密再現モデルです。これらのモデルのパフォーマンスを評価するには、MRR やリコールなどの一般的な指標を使用します。実験結果を次の表に示します。 # 図 6: テスト セットでの再現モデルの段落パフォーマンス 2) 段落の並べ替えの実験 ##段落想起段階と比較して、並べ替え段階は考慮する必要があります。段落サイズが小さいため、ほとんどのメソッドはモデル フレームワークとしてインタラクティブ エンコーダー (クロスエンコーダー) を使用する傾向があります。この研究では、段落並べ替えタスクでインタラクティブ エンコーダー モデルのパフォーマンスをテストします。MRR と nDCG を採用します。評価指標の実験結果は次のとおりです。
## 図 7: 段落並べ替えタスクの対話型エンコーダーのパフォーマンス既存の研究の実験結果と一致する、より良い結果を達成できます。再現実験と同様に、私たちのデータセットの再ランキング モデルのパフォーマンスは、他のデータセットのパフォーマンスよりも悪いです。これは、私たちのデータセットのきめ細かいアノテーションとより高いクエリ単語の多様性が原因である可能性があり、さらに、私たちのデータセットが挑戦的であり、モデルのパフォーマンスをより正確に反映できます。 このデータセットは、清華大学コンピューターサイエンス学部の情報検索研究グループ (THUIR) と QQ ブラウザ検索技術センターによって共同リリースされました。 Tencent のチームによるもので、清華大学 Tian の承認、人工知能コンピューティング研究所の支援を受けています。 THUIR研究グループは、検索・推薦手法の研究に注力しており、ユーザー行動モデリングや説明可能な学習手法において典型的な成果を上げており、その研究成果はWSDM2022最優秀論文賞、SIGIR2020最優秀論文ノミネート賞、CIKM2018最優秀論文賞を受賞しています。 2020 年中国情報学会「銭維昌中国情報処理科学技術賞」一等賞をはじめ、数々の学術賞を受賞。 QQ ブラウザ検索技術センター チームは、テンセント PCG 情報プラットフォームとサービス ラインの検索技術研究開発を担当するチームであり、テンセントのコンテンツ エコシステムに依存し、ユーザー調査を通じて製品革新を推進し、ユーザーにグラフィック、情報、小説、長文コンテンツを提供します。オリエンテーション情報のニーズは満たされます。 一般的に使用されるモデルの実験結果
データセット公開チームの紹介
以上が中国語段落並べ替えベンチマーク データ セットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。