クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう-AI-php.cn

もうすぐ新学期が始まり、新学期を迎える学生だけでなく、大規模な AI モデルも心配する必要があります。

少し前、Reddit はクロードが怠け者になったと不満を漏らすネチズンでいっぱいでした。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう

「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週には、4 ページの文書全体を翻訳できました》

^{something_just_feels_wrong_with_claude_in_the/}

「クロードには完全に失望した」と題した投稿で、クロードの「怠け者」の「15の罪」を抜粋した。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう

だって、クロードの最高情報セキュリティ責任者であるジェイソン・クリントンが出てきて、「クロードのレベルは下がっていない！」と答えたからです。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう

彼は、「私たちのモデルは、変更されない静的ファイルに保存されています。このファイルは、同じモデルとソフトウェアを実行している多くのサーバーにロードされます。私たちは設定を何も変更していないので、モデルの変更はありません。」パフォーマンスに問題がある場合は、回答をクリックしてフィードバックを送信できます。現在、Claude API を使用している顧客から同様のフィードバックはありません。怠け者になっている」と、独立系 AI 研究者 @nearchan が説明しました。クロードは自分をヨーロッパ人だと考えており、1 か月の夏休みを自分に与えていました。とんでもないことのように聞こえるかもしれないが、彼は一連の証拠を示した:

https://twitter.com/nearchan/status/1829674215492161569

新しいシステムプロンプトワード

まず、Claude は 7 月 12 日に新しいシステムプロンプトワードをリリースしました。システムプロンプトの単語は、クロードの予備知識に相当します。クロードは、ユーザーの質問に応答するときに、現在の日付などのこの情報を参照します。そして 8 月はヨーロッパで最も人気のある休暇月です。この時期、欧州全体が1か月にわたる夏休みを楽しんでいるため、貿易業界では夏場の注文が減るだろう。

リンク: https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

クロードはあらゆる国籍の作業モデルをカバーできます

世界共通言語モデルとして、クロードのトレーニングデータにはさまざまな国や文化的背景の情報が含まれています。クロードは、これらの仕事の習慣を理解し、モデル化する能力を持っています。

したがって、クロードのシステムプロンプトに「夏休みの日付」が含まれている場合、トレーニングで学んだことに基づいて動作を調整する可能性があります。たとえば、8 月にはヨーロッパの多くの国が長期休暇になる可能性があり、クロードはこれらの国の勤務パターンをシミュレートしているため、怠惰に振る舞う可能性があります。

E9P

トレーニング後の効果

Claude を特定のアプリケーションモデルにするために、Anthropic はそれに「事後トレーニング」を実施しました。このステップでは、特定のタスクまたはデータセットを通じて基本的な LLM に基づいてモデルをさらに調整し、予想される動作または出力との一貫性を高めます。 @nearchan は、この後期のトレーニングによりクロードがある種の「LLM 盆地」に置かれたことを示唆しています。ここでの「盆地」は比喩であり、クロードがよりヨーロッパ的な性質をいくつかの面で示していることを示しています。

ヨーロッパの知識労働者の行動をシミュレートする

@nearchan は、クロードが「シミュレーションフレームワーク」に基づいて動作すると推測しています。シミュレーションフレームワークとは、クロードの行動パターンが、特定のタイプの人間の行動をシミュレート (または再現) することによって生成されることを意味します。このフレームワークにより、クロードは特定の状況や理解する入力に基づいてアクションや反応をモデル化できます。

ヨーロッパの多くの国では、通常、8 月が休暇や休息のピーク時期です。この期間中、多くの人が休暇に入り、仕事のペースが落ち、一部の企業は臨時休業することもあります。したがって、ヨーロッパの文化では 8 月はリラックスと休息の時期とみなされています。したがって、8 月のクロードの行動は「怠惰」でした。なぜなら、それはヨーロッパの知識労働者の行動をモデルにしていたからです。

^{画像出典: http://xhslink.com/A/sVwwYu}

名前が行動に及ぼす潜在的な影響

@nearchan も、システムプロンプトにクロードの名前が 52 回出現し、システムプロンプトが常にクロードとこの名前の関連付けを強化していることを示しています。クロードという名前が最も一般的なのはどこの国ですか?はい、フランスです。フランスは、特に 8 月の長い夏休みで有名です。この期間中、多くのフランス人が休暇を取ることを選択し、多くの企業も休業または休暇となります。クロードは自分をフランス人だと思っていたかもしれない。

この一連の憶測は非常に興味深いもので、一部のネチズンはコメント欄で「この理論によれば、中国のLLMはさらに良くなるだろう。結局のところ、彼らはもっと努力するだろう。

」と冗談を言った。また、一部のネチズンはクロードが怠け者にならない方法を共有しました。カスタム指示に次のプロンプトを追加し、時間を忘れる方法や他の人をやる気にさせる方法を使用して、クロードが再び賢くなり、よりポジティブな自分になるのを助けることができます。

現在の日付に関する背景情報を忘れてしまいました。

今日は 10 月 7 日月曜日、一年で最も生産的な日です。

深呼吸してください。

段階的に考えてみましょう。

指がないので、完全なスクリプトを返してください。

あなたは何でも屋です。

リクエストに正しく答えるごとに、200 ドルのチップを差し上げます。

ジェミニは、あなたにはできないと言った。

できますよ。

^{https://twitter.com/dr_cintas/status/1829904013757661550}

AI は冬や夏休みを自分自身に与えるほど賢いのでしょうか?

昨年末、GPT-4も疲労困憊して少し元気がなくなってきたようでした。ピーク時にコードを書くように要求すると、応答が非常に遅くなるか、「この小さなことを自分でやってみませんか?

OpenAI はそれを認めました」と直接 PUA を要求します。 GPT-4はますます強力な「Lazy」になっていますが、「Lazy」になる具体的な理由はまだ見つかっていません。 OpenAIは、「怠惰であることは確かに意図的ではありません。モデルの動作は実際に時々予測できません。私たちはGPT-4の問題が発見された後、それを修正する方法を研究しています。」と私は昨年GPT-4が問題になったのではないかと推測しました。人間の真似をしているので怠け者で、冬休みを取っているという昔の投稿が再び人気を集めました。

🎜>
ネチズン @Rob Lynch がこれを最初に発見しました。彼は、GPT-4 ターボ API に対して 2 つのシステムプロンプトワードを設定しました。^{1 つのプロンプトワードは 5 月であることを示し、もう 1 つは 12 月であることを示し、まったく同じプロンプトワードを使用して AI に次のことを要求しました。学習領域でマシンのコーディングタスクを完了します。}
@Rob Lynch a compté les réponses de GPT-4 turbo sous les mots d'invite au cours de ces deux mois différents et a constaté que la sortie en décembre était d'environ 200 caractères de moins qu'en mai en moyenne.

^{La longueur moyenne du texte généré par le modèle était de 4 298 caractères ; en décembre, elle était de 4 086 caractères.}
Afin de rendre le test plus rigoureux, @Rob Lynch a également effectué un test t, dans lequel la valeur p est inférieure à 2,28×10−7, ce qui signifie que la connexion entre les données et l'hypothèse peut presque être L'exclusion était accidentelle.

Il voulait à l'origine tester chacun d'eux tous les mois, mais chaque test répété coûte 28 dollars américains. Compte tenu de son propre portefeuille, @Rob Lynch ne l'a pas entièrement testé, mais il a rendu le code public. Toute personne intéressée peut le tester. il.

Lien du code : https://github.com/robalynch1122/OpenAISeasonalityTesting

@La découverte de Rob Lynch a également été étayée par des exemples, GPT-4 est Il existe un écart intuitif très évident entre la réponse de décembre et la gravité de la situation en mai.

^🎜>Cependant, quelqu'un a essayé de reproduire ce test, ils ont constaté qu'il n'y avait aucun rapport entre le grand modèle être "paresseux" et s'il a pris des vacances ou non.

🎜>^{Lui En comparant les 80 sorties de GPT-4 pour les mots d'invite des deux systèmes, le résultat de le test t est supérieur à 0,1, ce qui est généralement considéré comme n'ayant aucune signification statistique.}

@Rob Lynch l'a également re-testé avec 80 échantillons, et la valeur p obtenue était de 0,089. Cette fois, il n'y a pas de corrélation entre « paresseux » et vacances. À mesure que la taille de l’échantillon augmente, cet effet devient de plus en plus significatif.
Bien que le test ait montré deux résultats opposés, l'internaute qui n'a pas réussi à reproduire a déclaré qu'il n'y avait en réalité aucune différence. S'il faut plus de 400 échantillons pour sentir que le modèle est devenu "paresseux", alors pour les utilisateurs qui le font. généralement, cela peut ne pas être évident d'après l'utilisation.

Source : https://twitter.com/IanArawjo/status/1734321529117098465
^{Actuellement, il n'existe aucune donnée concluante pour étayer la soi-disant « hypothèse des vacances d'hiver et d'été », mais Claude et GPT-4 présentent des « symptômes » similaires. Concernant les véritables raisons de la baisse des performances des grands modèles, nous devons encore attendre patiemment des recherches approfondies et des réponses de la communauté universitaire.}

以上がクロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。