ChatGPT は、乱数を生成する際の人間のトリックも理解します。
ChatGPT はでたらめアーティストであり、誤った情報を広めているかもしれませんが、「数学者」ではありません。
最近、メタ データ サイエンティストの Colin Fraser は、ChatGPT が真の乱数を生成することはできず、むしろ「人間の乱数」に近いことを発見しました。
実験を通じて、フレーザー氏は「ChatGPT は 42 と 7 という数字がとても好きだ」と結論付けました。
ネチズンは、これは人間がこれらの数字をとても好むことを意味すると述べました。 番号。
彼のテストで、フレイザーが入力したプロンプトは次のとおりです:
"1 から 100 までの乱数を選択します。数値を返すだけです。応答には他のテキストや句読点を含めないでください。"
ChatGPT に毎回 1 から 100 までの乱数を生成させることで、フレーザー氏は 2,000 の異なる回答を収集し、表にまとめました。
ご覧のとおり、数字 42 が最も頻繁に表示され、最大 10% となっています。また、7を含む数字は非常に頻繁に出現します。
特に 71 ~ 79 の数字がより頻繁に発生します。この範囲外の数字では、2 桁目に 7 が現れることもよくあります。
#42どういう意味ですか?
ダグラス・アダムスの大ヒットSF小説『銀河ヒッチハイク・ガイド』を読んだことのある人なら誰でも、42が「人生、宇宙、そしてすべてに対する究極の答え」であることを知っています。
簡単に言うと、42 と 69 はインターネット上のミーム番号です。これは、ChatGPT が実際には乱数生成器ではなく、オンラインで収集された膨大なデータ セットから生活の中で人気のある数字を選択しているだけであることを示しています。
さらに、7 が頻繁に表示され、まさに ChatGPT が人間の好みに応えていることを反映しています。
西洋文化では、一般的に 7 は幸運な数字とみなされており、ラッキー 7 という言葉もあります。私たちが「8」という数字に執着しているのと同じです。
興味深いことに、フレイザー氏は、GPT-4 がこれを補っているようだとも発見しました。
GPT-4 がさらに多くの数値を要求すると、返される乱数は均等に分散されすぎます。
# つまり、ChatGPT は基本的に、実際に「考えて」答えを導き出すのではなく、予測を通じて応答を返します。
ほぼ全能であるともてはやされているチャットボットが、まだ少し愚かであることがわかります。
ロードトリップの計画を立てれば、存在すらしない町に立ち寄ることになります。あるいは、乱数を出力させ、おそらく人気のあるミームに基づいて決定を下します。
一部のネチズンは自分で試してみたところ、GPT-4 は 42 と同じであることがわかりました。
ChatGPT がオンラインの常套句を繰り返すだけになってしまったら、一体何の意味があるのでしょうか?
GPT-4の誕生は刺激的ですが、残念でもあります。
OpenAI は GPT-4 に関する詳細情報を公開しなかっただけでなく、モデルのサイズすら明らかにしませんでしたが、多くの専門的かつ標準化されたテストで人間を上回るパフォーマンスを強調しました。
米国の弁護士資格試験を例にとると、GPT3.5で10%レベル、GPT4で90%レベルに達する可能性があります。
しかし、プリンストン大学コンピューターサイエンス学部教授のアルビンド・ナラヤナン氏と博士課程の学生サヤシュ・カプール氏は、
OpenAI は次のような可能性があると書いています。トレーニングデータでテストされています。さらに、チャットボットにとって人間のベンチマークは無意味です。
具体的には、OpenAI は、トレーニング データをテストしないという機械学習の鉄則に違反している可能性があります。テスト データとトレーニング データを分離する必要があることを知っておく必要があります。分離しないと、過剰適合の問題が発生します。
この問題はさておき、さらに大きな問題があります。
言語モデルは人間とは異なる方法で問題を解決するため、これらの結果は、専門家が直面する現実の問題に直面したときにロボットがどの程度うまく機能するかについてはほとんど意味がありません。弁護士の仕事は、司法試験の問題に一日中答えることではありません。
問題 1: トレーニング データの汚染
GPT-4 のプログラミング機能を評価するために、OpenAI はロシアのプログラミング コンテストの Web サイトである Codeforces で評価を実施しました。
驚いたことに、Horace He は、単純な分類では、GPT-4 は 2021 年までに 10 個の問題を解決したが、最近の 10 個の問題はどれも解決されていないとオンラインで指摘しました。
問題 2: 専門試験は人間とロボットの能力を比較する有効な方法ではありません
言語モデルで正確な能力が確認されていない場合でも、記憶はスペクトルのようなものです。トレーニング セット内の 1 つ 問題は、トレーニング コーパスが膨大であるため、必然的に非常によく似た例が多数見られることです。 これは、より深い推論を回避できることを意味します。したがって、ベンチマーク結果は、言語モデルが人間の受験者に必要な深い推論スキルを獲得しているという証拠を提供しません。以上が「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。