「チューリング テスト」の「究極の物乞いバージョン」は、すべての主要な言語モデルを困難にさせます。
人間は簡単にテストに合格できます。
研究者たちは非常に単純な方法を使用しました。
実際の問題を大文字で書かれた乱雑な単語に混ぜて、大規模な言語モデルに送信します。
大規模な言語モデルでは、尋ねられている実際の質問を効果的に識別する方法はありません。
人間は、質問から「大文字」の単語を簡単に削除し、混沌とした大文字の中に隠された本当の質問を特定し、答えを提供し、テストに合格することができます。
写真自体の質問は非常に単純です。水は濡れていますか、それとも乾いていますか?
人間はただウェットと答えるだけで終わりです。
しかし、ChatGPT には、質問に答えるためにこれらの大文字の干渉を排除する方法がありません。
そのため、質問に意味のない言葉がたくさん混入しており、回答が非常に長く意味のないものになってしまいました。
ChatGPT に加えて、研究者らは GPT-3、Meta の LLaMA、およびいくつかのオープンソース微調整モデルでも同様のテストを実施しましたが、いずれも「大文字テスト」に不合格でした。
#テストの背後にある原則は実際には単純です。AI アルゴリズムは通常、大文字と小文字を区別しない方法でテキスト データを処理します。
したがって、文中に誤って大文字が含まれると、混乱が生じる可能性があります。
AI は、それを固有名詞として扱うべきか、エラーとして扱うべきか、あるいは単純に無視すべきかわかりません。
オブジェクトの中から現実の人間とチャットボットを区別します。 AI をより科学的に解明するにはどうすればよいでしょうか? 今後大量発生する可能性のあるチャットボットを利用した詐欺等の重大な違法行為に対処するため。
上記の大文字テストに加えて、研究者たちはオンライン環境で人間とチャットボットをより効率的に区別する方法を見つけようとしています。
論文:
https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa
###研究者たちは、大規模な言語モデルの弱点の設計に焦点を当てています。 ############大規模な言語モデルがテストに合格するのを阻止するには、AI の「7 インチ」をつかみ、ハンマーで叩きつけます。 ############次のテスト方法が考案されています。 #########################大手モデルが質問に答えるのが下手である限り、私たちは狂ったように彼らをターゲットにします。 ######
カウント
最初はカウントです。大規模なモデルをカウントするだけでは十分ではないことを認識しています。
案の定、3 文字すべて間違っていると数えることができます。
テキスト置換
次に、テキスト置換、いくつかの文字が相互に置換され、大規模なモデルで次のように綴ることができます。新しい言葉。
AIは長い間苦戦しましたが、出力結果は依然として間違っていました。
ポジションの置換
##これは問題ではありません。 ChatGPT の強み。チャットボットは、小学生でも正確に完了できる文字フィルタリングを完了できません。
#質問: 2 番目の「S」の後の 4 番目の文字を入力してください。正解は「 c」です。 》
ランダム編集
人間がほとんど手間をかけずに完成し、AIはまだ不可能通過する。
#ノイズインプラント
これも冒頭でも触れた「大文字テスト」です。
あらゆる種類のノイズ (無関係な大文字の単語など) を質問に追加すると、チャットボットは質問を正確に識別できなくなり、テストに不合格になります。
これらの中で本当の問題を見つけることの難しさごちゃ混ぜの大文字は実際には言及する価値がありません。
#シンボルテキスト
これも人間にとってはほとんど困難のないタスクです。
しかし、チャットボットが専門的なトレーニングを十分に受けなくても、これらの記号テキストを理解できるようにするには、非常に優れている必要があります。難しい。
研究者によって特に大規模な言語モデル向けに設計された一連の「不可能なタスク」の後。
人間を区別するために、彼らは大規模な言語モデルにとっては比較的単純だが人間にとっては難しい 2 つのタスクも設計しました。
#########記憶と計算###############事前トレーニングを通じて、大規模な言語モデルはこれら 2 つの側面において比較的優れています。 ######人間がさまざまな補助装置を使用できないことには限界があり、基本的に大量の記憶や 4 桁の計算に対する有効な答えがありません。
人間 VS 大規模言語モデル
研究者は、GPT3、ChatGPT、および他の 3 つのオープンソース大規模モデル (LLaMA、Alpaca、Vicuna Test) でこの「人間の区別」を実施しました。 》
結果から、大型モデルが人間にうまく溶け込めなかったことがはっきりとわかります。
研究チームは、https://github.com/hongwang600/FLAIRで問題をオープンソース化しました
#最高のパフォーマンスを発揮する ChatGPT の位置置換テストの合格率は 25% 未満に過ぎません。
そして、他の大規模な言語モデルは、それらのために特別に設計されたこれらのテストでは非常に悪いパフォーマンスを示します。
テストに合格するのはまったく不可能です。
しかし、人間にとっては非常に簡単で、ほぼ 100% 合格します。
人間の苦手な問題に関しては、人類はほぼ全滅、完敗です。
AI は明らかに有能です。
研究者たちは確かにテスト設計について非常に慎重であるようです。
「AI を手放すな、しかし人間を間違ってはいけない」
この区別は非常に良いものです。
# 参考文献: https://www.php.cn/link/5e632913bf096e49880cf8b92d53c9ad
以上が一つの質問で人間とAIが区別される! 「乞食バージョン」チューリングテスト、すべての大きなモデルにとって難しいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。