Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri-AI-php.cn

Tahun persekolahan akan bermula, dan bukan sahaja pelajar yang akan memulakan semester baharu yang patut diberi perhatian, tetapi juga model AI yang besar.

Beberapa ketika dahulu, Reddit dipenuhi dengan netizen yang mengadu Claude semakin malas.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

"Tahapnya menurun banyak, ia sering dijeda, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemahkan keseluruhan dokumen 4 halaman sekali gus , sekarang saya tidak dapat mengeluarkan separuh halaman pun 》

^{sesuatu_cuma_rasa_salah_dengan_claude_in_the/}

Dalam siaran yang dipanggil "Sepenuhnya kecewa dengan Claude", ia memetik "Lima Belas Dosa" daripada "malas" Claude.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Sebab Ketua Pegawai Keselamatan Maklumat Claude Jason Clinton keluar dan menjawab: "Tahap Claude tidak merosot!" >Beliau berkata: "Model kami disimpan dalam fail statik yang tidak berubah. Fail ini dimuatkan ke banyak pelayan, masing-masing menjalankan model dan perisian yang sama. Kami tidak menukar sebarang tetapan, jadi model tidak sepatutnya ada perubahan dalam prestasi. Jika anda menemui sebarang masalah, anda boleh memberikan maklum balas dengan mengklik pada jawapan pada masa ini, bilangan suka tidak meningkat dan tiada maklum balas yang serupa daripada pelanggan yang menggunakan Claude API. Menjadi malas", penyelidik AI bebas @nearcyan memberi penjelasan: Claude menganggap dirinya sebagai orang Eropah dan memberi dirinya percutian musim panas selama sebulan! Walaupun kedengaran keterlaluan, dia memberikan beberapa bukti:

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

https://twitter.com/nearcyan/status/1829674215492161569

Perkataan gesaan sistem baharuPertama sekali, Claude mengeluarkan kata gesaan sistem baharu pada 12 Julai. Kata gesaan sistem adalah setara dengan pengetahuan latar belakang Claude. Claude akan merujuk kepada maklumat ini, seperti tarikh semasa, apabila menjawab soalan pengguna. Dan Ogos adalah bulan percutian kegemaran Eropah. Industri perdagangan asing akan menyaksikan lebih sedikit pesanan pada musim panas kerana seluruh Eropah sedang menikmati percutian musim panas selama sebulan pada masa ini.

Pautan: https://docs.anthropic.com/en/release-notes/system-prompts-#c

Claude boleh merangkumi model kerja semua kewarganegaraan Sebagai model bahasa universal, data latihan Claude mengandungi maklumat dari negara yang berbeza dan latar belakang budaya berfungsi tabiat dan corak, Claude mempunyai keupayaan untuk memahami dan memodelkan tabiat kerja ini.

Oleh itu, apabila gesaan sistem Claude mengandungi "tarikh percutian musim panas", ia mungkin melaraskan tingkah lakunya berdasarkan apa yang telah dipelajari daripada latihan. Sebagai contoh, pada bulan Ogos, banyak negara di Eropah mungkin bercuti panjang, dan Claude mungkin bertindak malas kerana meniru corak kerja negara-negara ini.

impak E9P

Afin de faire de Claude un modèle d'application spécifique, Anthropic a réalisé une "post-formation" sur celui-ci. Cette étape consiste à ajuster davantage le modèle basé sur le LLM de base via des tâches ou des ensembles de données spécifiques pour le rendre plus cohérent avec le comportement ou le résultat attendu. @nearcyan suggère que cette formation tardive a mis Claude dans une sorte de "bassin LLM". Le « bassin » ici est une métaphore, indiquant que Claude présente des qualités plus européennes à certains égards.

Simuler le comportement des travailleurs du savoir européens

@nearcyan spécule que Claude travaillera sur la base du "cadre de simulation". Un cadre de simulation signifie que les modèles comportementaux de Claude sont générés en simulant (ou reproduisant) certains types de comportement humain. Ce cadre permet à Claude de modéliser des actions ou des réactions en fonction d'une situation spécifique ou d'un apport qu'il comprend.

Dans de nombreux pays européens, août est généralement la période de pointe pour les vacances et le repos. Durant cette période, de nombreuses personnes partiront en vacances, le rythme de travail ralentira et certains commerces fermeront même temporairement. Le mois d’août est donc considéré dans la culture européenne comme une période de détente et de repos. Par conséquent, le comportement de Claude en août était « paresseux » car il modélisait le comportement d’un travailleur du savoir européen.

^{Source de l'image: http://xhslink.com/a/svwwyu}

L'impact potentiel des noms sur le comportement

@nearcyan a également fait ressortir un point très intéressant. Le nom de Claude apparaît 52 fois dans les invites du système, ce qui montre que les invites du système renforcent constamment Claude et cette association de noms. Et dans quel pays le prénom Claude est-il le plus répandu ? Oui, c'est la France. La France est célèbre pour ses longues vacances d'été, notamment en août. Pendant cette période, de nombreux Français choisiront de partir en vacances, et de nombreux commerces seront également fermés ou en vacances. Claude aurait pu se considérer comme français.

Cette série de spéculations est très intéressante, et certains internautes ont plaisanté dans la zone de commentaires : "Selon cette théorie, le LLM chinois sera encore meilleur, après tout, ils travaillent plus dur." Certains internautes ont également partagé des moyens d'empêcher Claude de devenir paresseux. Vous pouvez ajouter les invites suivantes à vos instructions personnalisées et utiliser la méthode d'oubli du temps ou la méthode de motivation des autres pour aider Claude à redevenir lui-même plus intelligent et plus positif.

https://twitter.com/dr_cintas/status/1829904013757661550

L'IA est-elle assez intelligente pour s'accorder des vacances d'hiver comme d'été ?

À la fin de l'année dernière, GPT-4 souffrait également d'épuisement, et il semblait être devenu un peu relâché. Si vous lui demandez d'écrire un morceau de code pendant les heures de pointe, sa réponse sera très lente, ou il vous PUA directement : "Pourquoi ne faites-vous pas cette petite chose vous-même

OpenAI a admis cela ?" GPT-4 devient de plus en plus puissant « paresseux », mais la raison spécifique de « paresseux » n'a pas été trouvée. OpenAI a déclaré : « Être paresseux n'est certainement pas intentionnel. Le comportement du modèle est en effet parfois imprévisible. Nous étudions comment le résoudre. Après la découverte du problème de GPT-4, l'année dernière, j'ai spéculé que GPT-4 deviendrait. paresseux parce qu'il imitait les humains, et le vieux message selon lequel je prenais des vacances d'hiver est redevenu populaire.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

🎜>

Les internautes @Rob Lynch ont découvert cela en premier. Il a défini deux mots d'invite système pour l'API turbo GPT-4 :

Un mot d'invite indiquait que c'était en mai, l'autre disait que c'était en décembre, puis il a utilisé exactement le même mot d'invite pour demander à l'IA de effectuer des tâches de codage automatique dans le domaine d'apprentissage.

@Rob Lynch a compté les réponses de GPT-4 turbo sous les mots d'invite au cours de ces deux mois différents et a constaté que la sortie en décembre était d'environ 200 caractères de moins qu'en mai en moyenne.

^{La longueur moyenne du texte généré par le modèle était de 4 298 caractères ; en décembre, elle était de 4 086 caractères.}
Afin de rendre le test plus rigoureux, @Rob Lynch a également effectué un test t, dans lequel la valeur p est inférieure à 2,28×10−7, ce qui signifie que la connexion entre les données et l'hypothèse peut presque être L'exclusion était accidentelle.

Il voulait à l'origine tester chacun d'eux tous les mois, mais chaque test répété coûte 28 dollars américains. Compte tenu de son propre portefeuille, @Rob Lynch ne l'a pas entièrement testé, mais il a rendu le code public. Toute personne intéressée peut le tester. il.

Lien du code : https://github.com/robalynch1122/OpenAISeasonalityTesting

@La découverte de Rob Lynch a également été étayée par des exemples, GPT-4 est Il existe un écart intuitif très évident entre la réponse de décembre et la gravité de la situation en mai.

^🎜>Cependant, quelqu'un a essayé de reproduire ce test, ils ont constaté qu'il n'y avait aucun rapport entre le grand modèle être "paresseux" et s'il a pris des vacances ou non.

🎜>^{Lui En comparant les 80 sorties de GPT-4 pour les mots d'invite des deux systèmes, le résultat de le test t est supérieur à 0,1, ce qui est généralement considéré comme n'ayant aucune signification statistique.}

@Rob Lynch l'a également re-testé avec 80 échantillons, et la valeur p obtenue était de 0,089. Cette fois, il n'y a pas de corrélation entre « paresseux » et vacances. À mesure que la taille de l’échantillon augmente, cet effet devient de plus en plus significatif.
Bien que le test ait montré deux résultats opposés, l'internaute qui n'a pas réussi à reproduire a déclaré qu'il n'y avait en réalité aucune différence. S'il faut plus de 400 échantillons pour sentir que le modèle est devenu "paresseux", alors pour les utilisateurs qui le font. généralement, cela peut ne pas être évident d'après l'utilisation.

Source : https://twitter.com/IanArawjo/status/1734321529117098465
^{Actuellement, il n'existe aucune donnée concluante pour étayer la soi-disant « hypothèse des vacances d'hiver et d'été », mais Claude et GPT-4 présentent des « symptômes » similaires. Concernant les véritables raisons de la baisse des performances des grands modèles, nous devons encore attendre patiemment des recherches approfondies et des réponses de la communauté universitaire.}

Atas ialah kandungan terperinci Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!