たとえば、次のようになります。上海封鎖 この期間中、あるセルフメディアは「李立群が肉を買うために階下に忍び込んで捕まった」と主張した。この主張(主張)だけでは、実際には彼が肉を買いにこっそり階下に行って捕まったかどうかを判断することはできません。この声明の信頼性を検証するために、最も直観的なアイデアは証拠 (Evidence) を探すことです。証拠とは、収集できる情報であり、声明の信頼性を検証するのに役立ちます。たとえば、下の写真では、つい手で破ってしまいましたが、これは証拠として使用できます。
上記で引用したステートメントは比較的単純です。簡単な証拠のみが必要であり、証拠に基づく必要はありません。 . 推理。以下に比較的複雑な例を見てみましょう。たとえば、次のような記述があります。
2019 年には、合計 120,800 人が成都高校入学試験を受験しましたが、入学計画はわずか 43,000 人でした 。この声明を検証することは比較的困難ですが、2019 年成都高校入学試験に関する関連文書を見つけた場合:
...合計 120,800 人が最高受験者でした今年の学校入学試験、これは20区、ハイテク区、天府新区を含む成都市の総基準数である。数カ月前、教育庁が2019年度普通科高等学校入学者計画を発表した。入学プランもさらに増え、一般高校に進学できる可能性はさらに高まりました。 ……この文書には声明に関連する多くの情報が含まれていますが、直接関連しており、声明の検証に役立つのは、上記の 2 番目の段落の後半です。そして多くの段落の後の最初の文。これらの証拠に基づいて、成都の 20 地区では実際に 120,800 人が高校受験をしており、中心都市部 (13 地区のみを含む) の入学計画は実際にわずか 43,000 人であることがわかります。数字は正しいのですが、ここで考え方を変えて、高校受験者数を議論する場合は20地区の人数を使いますが、入学計画を議論する場合は20地区の範囲を狭めます。 13 地区に拡大し、読者を誤解させます。この種の発言を検証するには、多くの場合、1 つ以上の文書から直接関連する証拠を抽出し、同時に抽出された証拠に基づいて推論を行う必要があります。中国のファクトチェック機械学習システムを促進するために、私たちはそのような証拠に基づいた中国のデータセットを提案します。
2019年度の中心市(13地区)の入学計画は43,015人です。
2. 関連研究
ファクト チェックのレビュー [1] によると、現在のファクト チェック データ セットは大まかに 2 つのカテゴリに分類できます。 ##人工(人工)と天然(天然)。
人工的 (人為的): 注釈者は、Wikipedia に従って文をステートメントとして書き直すように求められ、文書内の関連する段落は次のようになります。証拠として使用 この声明を検証してください。同義変換であれば証拠によって裏付けられる(Supported)、文中の実体が置き換えられたり、否定などの修飾が加えられた場合には、証拠によって否定される(Refuted)。 。
このアノテーション パラダイムはもともと FEVER[2] であり、TabFact[3] などのその後の多くの有名なデータ セットもこのパラダイムに従いました。このタイプの人工データ セットの利点はスケールアップできることであり、アノテーターは 100,000 個のステートメントにラベルを付けるように求められますが、これはニューラル ネットワークのトレーニングに非常に適しています。一方で、関連する証拠も簡単に入手できます。欠点は、これらの発言が日常生活で遭遇するような一般大衆に人気のある発言ではないことです。たとえば、李立群のウィキペディアに基づいて「彼はこっそり階下に肉を買いに行って捕まった」という発言を書き直すことはできないでしょう。 。一方、このタイプのデータセットは、Wikipedia に主張を検証するためのすべての知識が含まれていると仮定しています。これは比較的強力な仮定です。この仮定は、現実のシナリオでは満たされないことがよくあります。最も単純な問題は、Wikipedia にはタイムラグがあることです。
自然: これは事実確認プラットフォームから直接クロールされた声明であり、外国の比較有名な組織トランプ大統領の発言を頻繁にチェックするPolitiFactだ。このタイプのデータセットの利点は、一般の人々が毎日遭遇し、真実を知りたいと考えているステートメントであることです。これは、人間のファクトチェッカーが精査する必要がある声明でもあります。
最終的に人間の検証者をある程度代替できるシステムを構築したい場合、このシステムの入力はこのタイプのステートメントである必要があります。このタイプのデータセットの欠点も明らかです。それは、人間によって検証された主張の数が非常に限られているということです。表が示すように、ほとんどのデータ セットは、実際には手動で構築されたデータ セットよりも 1 桁小さいです。
一方、証拠を見つけるのは非常に難しい問題です。既存のデータセットは通常、ファクトチェック記事 [4] を証拠として直接使用するか、クレームを使用して Google 検索クエリ [5][6] を入力し、返された検索概要 (赤いボックスで表示) を証拠として使用します。
##これらの証拠を見つける方法には 2 つの問題があります:
上記の問題に対応して、CHEF を構築しました。CHEF には次のような特徴があります。 -世界の主張は同時に中国語で書かれ、中国の事実確認データセットのギャップを埋めています。
元の声明は主に 4 つの中国の事実確認 Web サイトからクロールされました (デューク ニュース プラットフォームによる) ) のうち、簡体字中国語版は 2 つあります: China Rumor Refuting Center と Tencent True Truth。繁体字中国語は、台湾の 2 つのプラットフォーム、MyGoPen と台湾ファクトチェック センターから提供されています。ファクトチェック Web サイトからクロールされた主張の大部分 (90%) は虚偽であるため、一般的な噂や発言のほとんどが虚偽であり、検証プラットフォームによって反論/検証されることは、実際には非常に直感的です。以前の方法 (PublicHealth [7]) を参照して、チャイナ ニュース ネットワークのタイトルを実際の主張としてクロールし、比較的バランスのとれたラベルを持つデータ セットを構築しました。
比較的成熟した外国のファクトチェック機関と比較して、中国の検証プラットフォームによって発行された記事は比較的あまり標準化されていません。たとえば、PolitiFact は、主張が何であるか、検証概要が何であるか、証拠と推論の詳細が何であるかを正確に示します (上の図を参照)。ただし、中国の記事は一般的にこのことを明確に示していないため、注釈者に記事を読んでもらい、記事によって検証された記述を抽出してもらいます。同時に、ステートメントもクリーンアップされ、ステートメントに含まれるバイアスが軽減されます。
以前の研究では、ファクトチェック データセット内のステートメントには比較的強いバイアス (たとえば、虚偽のステートメントには通常否定的な単語が含まれる) と BERT などの PLM が含まれていることを示しています [8]。これらのバイアスを直接捉えることで、証拠がなくても主張を検証できます。クリーニング方法には、修辞的な質問を平叙文に変更することや、重い、衝撃的ななど、偏っている可能性のあるいくつかの単語を削除することが含まれます。主張を抽出した後、私たちはまた、事実確認記事に基づいて主張にラベルを付けるようにアノテーターに依頼しました。 『FEVER』などの一連の作品と同様の分類を採用しており、支持、反論、情報不足(NEI)の3分類を採用しています。その中で、Refuted が最大規模であり、NEI が最小規模である。
このステートメントをクエリ ステートメントとして使用して Google 検索にクエリを実行し、その後、いくつかのドキュメントを除外します。その一部はステートメントが検索された後のドキュメントです。残りの部分は虚偽ニュース拡散プラットフォームからの文書であり、上位 5 つの文書が最後に保持されます。次に、注釈者は各記述の証拠として最大 5 つの文を選択するように求められました。
データセット内の主張と証拠の統計は次のとおりです。各主張に対して返される文書の平均長は 3691 ワードで、アノテーターが最後の部分を抽出した文が含まれます。詳細な証拠には 126 語が含まれており、Google のルールベースのスニペットを使用すると平均 68 語が含まれます。返されたドキュメントと注釈付きの文を使用して数値を比較するだけで、概要を直接使用するよりも多くのコンテキスト情報が得られます。
ラベリングの一貫性を確保するために、データ検証のラウンドを追加し、ランダムに 3 つを選択しました。合計 310 個のラベル付きステートメントのうちの % が、ラベル付けと再ラベル付けのために 5 人のアノテーターに配布されました。 Fleiss K スコアは 0.74 に達し、FEVER の 0.68 や Snopes[5] の 0.70 よりわずかに高く、データ アノテーションの品質が以前の人々によって構築されたデータ セットと比べて劣っていないことを示しています。 CHEFにおけるステートメントは主に、社会、公衆衛生、政治、科学、文化の5つのテーマに分かれています。政治分野に焦点を当てたヨーロッパやアメリカのファクトチェックプラットフォームとは異なり、中国のプラットフォームは新型コロナウイルス、ヘルスケア、医療などの公衆衛生問題により多くの注意を払っている。もう 1 つの主要なトピックは、詐欺、進学、社会的出来事などの社会です。
この声明を検証するには、主に 4 つの課題があります。
以前の古典的なファクトチェック データセット (FEVER など) と同様に、機械学習システムはまず、特定の文書内の関連する文を証拠として選択する必要があります (証拠の検索)。 、そして証拠と照らし合わせて主張を検証します(主張検証)。
この記事では、何千人もの人々の成果に基づいて、ベースライン システムの 2 つの主要なカテゴリ、パイプライン システムとジョイント システムを提案します。パイプライン: 証拠検索とクレーム検証は 2 つの別個のモジュールです。証拠検索は最初に証拠を抽出するために使用され、その後、結合されたクレームが分類のためにクレーム検証モジュールに渡されます。
共同: 証拠検索モジュールと請求検証モジュールは共同で最適化されます。 3 つの異なるモデルが使用されており、1 つ目は SOTA on FEVER [10] の結合モデルで、マルチタスク学習フレームワークを使用して、証拠と主張を同時にラベル付けすることを学習します。 2 つ目は、証拠の抽出を潜在変数 [11] として処理し、返された文書の各文に 0 または 1 のラベルを付ける方法です。1 のラベルが付けられた文は証拠として残され、トレーニング用の REINFORCE を使用してステートメントと一緒に分類されます。 。 3 番目の方法は 2 番目の方法と似ていますが、ポリシー勾配を使用する代わりに、HardKuma と共同トレーニングに重パラメータ法を使用する点が異なります [12]。
実験の主な結果を以下の図に示します。
5.2 詳細な証拠の数
詳細な証拠の数は多ければ多いほどよいというわけではありません。以下に示すように、きめ細かい証拠として 5 文を選択すると、パイプライン システムの証拠抽出機能が最高の効果を発揮しますが、10 文と 15 文が証拠として抽出されると、効果はますます悪くなります。おそらく、抽出された文には多くのノイズが混入しており、それがステートメント検証モデルの判定に影響を与えていると考えられます。
5.3 宣言の長さの影響
ほとんどの宣言は 10 を超えます。主な理由は、ステートメントがより詳細であり、モデルが判断するのに役立つ詳細な証拠を収集するのが容易であるためだと推測されます。発言の長さが比較的短い場合、集中ベースラインモデル間のギャップはそれほど大きくありませんが、発言の長さが比較的長い場合、得られた証拠が良好であればあるほど、発言の検証効果が向上し、これも証拠検索の重要性を示しています。 科学分野からの主張は検証が最も困難であり、モデル効果は基本的に 55 までです。一方で、関連する証拠を収集することはより困難であり、他方では、科学的問題に関する記述は比較的複雑であり、結果を得るために暗黙の推論を必要とすることがよくあります。 図に示すように、たとえ部分的な Supported 宣言を導入したとしても、データ セット全体は階級の不均衡の問題は依然として存在する。 NEI カテゴリに対するモデルの影響は、支持および反駁カテゴリに比べてはるかに弱いです。今後の研究では、カテゴリーの不均衡なファクトチェックデータセットのクレーム検証モデルを調整する方法や、データ拡張手法を使用してトレーニングプロセス中に NEI の数をランダムに増やす方法を研究することができます。トレーニングプロセス中の NEI 一部の主張の証拠を破棄し、それらの主張のカテゴリを NEI に変更します。 5.4 主張された分野の影響
5.5 宣言カテゴリの影響
以上が清華大学、ケンブリッジ大学、UICが共同で中国初のファクトチェックデータセットを発表:証拠に基づき、医学会など複数の分野をカバーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。