ホームページ > テクノロジー周辺機器 > AI > DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

PHPz
リリース: 2023-04-14 10:13:02
転載
1517 人が閲覧しました

DetectGPT の目的は、テキストの一部が GPT-3 などの特定の llm によって生成されたかどうかを判断することです。段落 x を分類するために、DetectGPT はまず、共通の事前トレーニング済みモデル (T5 など) を使用して段落 ~xi に小さな摂動を生成します。次に、DetectGPT は、元のサンプル x の対数確率を各摂動サンプル ~xi と比較します。平均対数比率が高い場合、サンプルはソース モデルからのものである可能性があります。

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

ChatGPT はホットなトピックです。記事が大規模言語モデル (LLM) によって生成されたことを検出できるかどうかについては、現在も議論が行われています。 DetectGPT は、特定の LLM から生成するかどうかを判断するための新しい曲率ベースの基準を定義します。 DetectGPT では、別個の分類器をトレーニングしたり、実際のパッセージまたは生成されたパッセージのデータセットを収集したり、生成されたテキストに明示的に透かしを入れたりする必要はありません。対象のモデルによって計算された対数確率と、別の汎用の事前トレーニング済み言語モデル (T5 など) からの記事のランダム摂動のみを使用します。

1. DetectGPT: ランダムな順列と仮定

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

logp の負の位置にある機械生成チャネル x~pθ (左) を特定して利用します ( x) 近くのサンプルのモデル対数確率が平均して低い曲率領域の傾向。対照的に、人間が書いたテキスト x~preal(.) (右) は、有意な負の対数確率曲率を持つ領域を占有しない傾向があります。

DetectGPT は、ソース モデル pθ からのサンプルが通常、人間のテキストとは異なる pθ 対数確率関数の負の曲率領域にあるという仮定に基づいています。テキスト x~pθ に小さな摂動を適用して ~x​​ を生成した場合、機械生成されたサンプルの数 log pθ(x) - log pθ(~x) は、人間が書いたテキストと比較して比較的多くなるはずです。この仮定を使用して、最初に摂動関数 q(.|x) を考えます。これは、同様の意味を持つ x のわずかに変更されたバージョンである ~x にわたる分布を与えます (通常、大まかな段落長のテキスト x を考えます)。たとえば、q(.|x) は、x の意味を保持しながら x の文の 1 つを書き直すよう人間に単純に依頼した結果である可能性があります。摂動関数の概念を使用すると、摂動差 d (x; pθ, q) を定義できます。

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

## したがって、次の仮定 4.1 は次のようになります。

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

q(.|x) が人間による書き換えではなく、マスク充填モデル (T5 など) からのサンプルである場合、仮定4.1 は、実証的テストに対する自動化されたスケーラブルなアプローチとして表現できます。

2. DetectGPT: 自動テスト

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

記事を書き換えた後、モデルによって生成された記事の対数確率 (摂動差の平均減少率) は、人間が書いた記事よりも常に高くなります。

実際のデータの場合、XSum データセットからの 500 件のニュース記事が使用されました。 XSum の各記事の最初の 30 トークンの入力を求められた場合、4 つの異なる llms の出力を使用します。摂動は T5-3B を使用して適用され、記事内の単語の 15% がマスクされるまでランダムにサンプリングされた 2 単語の範囲をマスクします。上記の式 (1) の期待値は、T5 の 100 サンプルで近似されます。

上記の実験結果は、人間が書いた記事とモデル サンプルの間で摂動差の分布に大きな違いがあることを示しています。モデル サンプルには大きな摂動差があることがよくあります。これらの結果に基づいて、摂動の差を単純に閾値処理することによって、テキスト片がモデル p によって生成されたかどうかを検出することが可能です。

E~x q(.|x) log p (~x) の推定に使用される観測値の標準偏差によって摂動の差を正規化すると、検出が向上し、通常は AUROC が約 0.020 増加します。実験では摂動差の値が使用されました。

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

DetectGPT 検出プロセスの擬似コード

摂動の差は役に立つかもしれませんが、何を測定するのか明確に説明できないため、著者は次のセクションで曲率を使用して説明します。 。

3. 摂動の差を曲率として解釈する

摂動の差は、候補通路付近の対数確率関数の局所的な曲率の尺度を近似します。より具体的には、次のヘシアンと一致します。対数確率関数行列の負のトレースは比例します。

このセクションは内容が非常に多いため、ここでは詳しく説明しませんが、興味があれば原論文を読んでください。概要は次のとおりです。

摂動マーカーがランダムに追加される場合、対数確率は常に減少すると予想されるため、セマンティック空間でのサンプリングにより、すべてのサンプルがデータ多様体の近くに留まることが保証されます。したがって、目標はデータ多様体の曲率をほぼ制限するものとして解釈できます。

4. 結果の表示

ゼロサンプルの機械生成テキスト検出

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

各実験では、評価に 150 ~ 500 のサンプルが使用されます。機械生成テキストは、実際のテキストの最初の 30 トークンを要求することによって生成されます。 AUROC) を使用してパフォーマンスを評価します。

DetectGPT は、XSum ストーリー (AUROC が 0.1 増加) と SQuAD Wikipedia コンテキスト (AUROC が 0.05 増加) の平均検出精度を最大化していることがわかります。

15 のデータセットとモデルの組み合わせのうち 14 について、DetectGPT は最も正確な検出パフォーマンスを提供し、AUROC の平均改善率は 0.06 です。

教師付き検出器との比較

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

# 実際のテキストと生成されたテキストの大規模なデータセットでトレーニングされた教師付き機械生成テキスト検出モデルは、分布内のテキストに対するパフォーマンスです。 (上の行) は DetectGPT と同等か、それ以上です。ゼロショット手法は、WMT16 の PubMed 医療テキストやドイツのニュース データなどの新しいドメイン (下段) に適用されます。

各データセットからの 200 サンプルで評価すると、教師あり検出器は、英語ニュースなどの配信データでは DetectGPT と同様のパフォーマンスを発揮しますが、英語の科学論文の場合、そのパフォーマンスはゼロ サンプル アプローチよりも大幅に劣ります。これはドイツ語の文章では完全に失敗します。

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

DetectGPT の GPT-3 の平均 AUROC は、機械生成テキスト検出用に特別にトレーニングされた教師ありモデルに匹敵します。

150 の例が PubMedQA、XSum、およびwritingprompt データ セットから抽出されました。 2 つの事前トレーニングされたロバータベースの検出器モデルが、DetectGPT および確率的しきい値ベースラインと比較されます。 DetectGPT は、より強力な教師ありモデルと競合する検出を提供できます。

機械生成テキスト検出のバリエーション

DetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出

この部分では、検出器が人間が編集した機械生成テキストを検出できるかどうかを確認します。手動改訂は、テキストの r% が置き換えられるまで、テキストの 5 つのワード スパンを T5 ~ 3B のサンプルで置き換えることによってシミュレートされました。 DetectGPT は、モデル サンプル内のテキストの 4 分の 1 近くが置き換えられているにもかかわらず、検出 AUROC を 0.8 以上に維持します。 DetectGPT は、すべてのリビジョン レベルにわたって最も強力な検出パフォーマンスを示します。

以上がDetectGPT: 確率的曲率を使用したゼロショット機械生成テキスト検出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート