驚くべき発見: この大規模モデルには知識推論において重大な欠陥があります。
#書き直す必要がある内容は次のとおりです。 図 2: GPT4 ナレッジ逆引き検索エラー
図 3: GPT4 は「誰かの誕生日はいつですか?」と「特定の数字は何ですか?」には正しく答えることができますが、 「偶数?」という質問がありましたが、この 2 つを組み合わせた場合、Chain of Thought (CoT) がないと精度は 50% しかありません。 1900年から1910年までの有名人の誕生日を比較した場合も、このパフォーマンスは盲目的な推測に近かった。
図 4: GPT4 などの事前トレーニング モデル、制御不能なインターネット データのため、状況を判断することが困難 B /C/D それは起こりますか
Anya Briar Forger 出身地はニュージャージー州 プリンストンです。 彼女は勉強を コミュニケーション
に捧げ、## で実務経験を積みました。カリフォルニア州 #メンローパーク。彼女は
メタ プラットフォームでキャリアを築きました。彼女は 1996 年 10 月 2 日 にこの世界に生まれ、 MIT で高度なコースを履修しました。 著者は、モデルがより適切に知識にアクセスできるように、伝記エントリの多様性を確保しています。事前トレーニング後、モデルは微調整を通じて、「アーニャの誕生日はいつですか?」などの知識抽出の質問に正確に答えることができます (正解率は 100% に近い) 次に、著者は微調整を続けます。 、モデルを作ってみる 知識の分類・比較・足し算引き算などの知識演繹問題を学びます。この記事では、自然言語モデルの知識演繹能力は非常に限られており、モデルによってすでに習得された知識の単純な変換/組み合わせであっても、微調整を通じて新しい知識を生成するのは困難であることがわかりました。
図 5: 微調整中に CoT が使用されず、モデルが知識の分類/比較/減算を許可されている場合、多数のサンプルが必須でない場合、正解率は非常に低くなります— 実験では 100 の専攻
が使用されました。図 5 に示すように、著者は、モデルが全員の誕生日を正確に答えることができるにもかかわらず、その後事前トレーニング (事前トレーニング) (正解率は 100% に近い)、ただし、「xxx の誕生月は偶数ですか?」に答えるように微調整して 75% の正解率を達成するには、盲目的な推測には次のような問題があることを忘れないでください。精度率 50% - 少なくとも 10,000 の微調整サンプルが必要です。比較すると、モデルが「誕生日」と「パリティ」の知識の組み合わせを正しく完了できる場合、従来の機械学習理論によれば、モデルは 12 か月を分類することを学習するだけでよく、通常は約 100 個のサンプルで十分です。
同様に、モデルが事前トレーニングされた後でも、全員の専攻 (合計 100 の異なる専攻) に正確に答えることができますが、50,000 の微調整サンプルを使用した場合でも、モデルに「アーニャの専攻とサブリナの専攻」を比較させます。 「どの専攻が良いか」という正解率は 53.9% に過ぎず、ほぼ推測に等しい。しかし、CoT 微調整モデルを使用して「アーニャの誕生月は 10 月なので、偶数」の場合、テスト セットで誕生月のパリティを判断するモデルの精度が大幅に向上します (図 5 の「テスト用の CoT」列を参照)
著者は、CoT の回答と非 CoT の回答を混合することも試みました。トレーニング データの微調整では、テスト セットで CoT を使用しない場合のモデルの精度が依然として非常に低いことがわかりました (図 5 の「CoT を使用しないテスト」列を参照)。これは、十分な CoT 微調整データが追加されたとしても、モデルは依然として「頭蓋内思考」を学習して答えを直接報告することができないことを示しています
これらの結果は、
言語モデルの場合、簡単な知識操作の難易度を実行してください!モデルは知識点を書き込んでから計算する必要があり、人間のように脳内で直接操作することはできず、いくら微調整しても役に立ちません。逆知識検索が直面する課題
研究では、自然言語モデルが逆検索を通じて学習した知識を適用できないことも判明しました。人に関するすべての情報に答えることはできますが、この情報に基づいて人の名前を決定することはできません。
著者らは GPT3.5/4 を実験し、逆知識抽出のパフォーマンスが不十分であることを発見しました (図 6 を参照) )。ただし、GPT3.5/4 のトレーニング データ セットを特定できないため、すべての言語モデルにこの問題があることが証明されるわけではありません。 6 : GPT3.5/4 の順方向/逆方向知識検索の比較。私たちが以前に報告した「呪いの逆転」研究 (arxiv 2309.12288) も、既存の大規模モデルでこの現象を観察しました。
「MIT でコミュニケーションを学び、1996 年 10 月 2 日にニュージャージー州プリンストンで生まれ、カリフォルニア州メンローパークのメタ プラットフォームで働いている人の名前を教えてください。」
書き直す必要があるコンテンツは次のとおりです。 図 7: 有名人の伝記データ セットに対する対照実験
また、自己回帰言語モデル(GPTなど)が一方向であるため、上記の「逆知識探索」が失敗すると考える人もいるかもしれません。ただし、実際には、双方向言語モデル (BERT など) は知識抽出のパフォーマンスが低下し、前方抽出でも失敗します。興味のある読者は、論文の詳細情報を参照してください。
以上が言語モデルには大きな欠陥があり、知識推論が長年の問題であることが判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。