Kesimpulan akhir kertas ACL 2024: model bahasa besar ≠ simulator dunia, Yann LeCun: Betul sekali-AI-php.cn

Jika GPT-4 hanya kira-kira 60% tepat apabila mensimulasikan perubahan keadaan berdasarkan tugas akal, adakah kita masih perlu mempertimbangkan untuk menggunakan model bahasa besar sebagai simulator dunia?

Dalam dua hari lalu, kertas kerja yang dipilih untuk ACL 2024 "Bolehkah Model Bahasa Berfungsi sebagai Simulator Dunia Berasaskan Teks telah membangkitkan perbincangan hangat di media sosial X, malah pemenang Anugerah Turing, Yann LeCun juga Mendapat?" terbabit.

Persoalan yang diterokai dalam kertas kerja ini ialah: Bolehkah model bahasa semasa sendiri bertindak sebagai simulator dunia dan meramalkan dengan betul bagaimana tindakan mengubah keadaan dunia yang berbeza, sekali gus mengelakkan keperluan untuk pengekodan manual yang meluas?

Sebagai tindak balas kepada masalah ini, penyelidik dari University of Arizona, New York University, Johns Hopkins University, Microsoft Research, Allen Institute for Artificial Intelligence dan institusi lain dalam konteks "simulator berasaskan teks" Jawapan mereka adalah diberikan dalam.

Mereka percaya: Model bahasa tidak boleh digunakan sebagai simulator dunia. Sebagai contoh, GPT-4 hanya kira-kira 60% tepat apabila mensimulasikan perubahan keadaan berdasarkan tugas akal seperti air mendidih.

^{menyatakan persetujuannya dan percaya bahawa "tanpa model dunia, tidak ada rancangan." model pada tahap tertentu”? Dan ia akan terus bertambah baik dengan lelaran LLM. LeCun juga menyatakan bahawa model dunia tidak akan menjadi LLM.}

Kembali dalam kertas kerja, para penyelidik membina dan menggunakan penanda aras baharu yang mereka panggil "ByteSized32-State-Prediction", yang mengandungi set data yang terdiri daripada peralihan keadaan permainan teks dan tugasan permainan yang disertakan. Mereka menggunakan penanda aras ini buat kali pertama untuk mengukur secara langsung prestasi model bahasa besar (LLM) sebagai simulator dunia berasaskan teks.

Dengan menguji GPT-4 pada set data ini, para penyelidik mendapati bahawa walaupun prestasinya mengagumkan, ia kekal sebagai simulator dunia yang tidak boleh dipercayai tanpa inovasi lanjut.

Oleh itu, para penyelidik percaya bahawa kerja mereka memberikan kedua-dua pandangan baharu tentang keupayaan dan kelemahan LLM semasa dan garis asas baharu untuk menjejak kemajuan masa depan apabila model baharu muncul. ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Alamat kertas: https://arxiv.org/pdf/2406.06485

Tinjauan Keseluruhan Kaedah

Para penyelidik menerokai keupayaan LLM berasaskan teks untuk bertindak sebagai simulator dunia maya. Di sini Dalam persekitaran ini, ejen menerima pemerhatian dan mencadangkan tindakan dalam bahasa semula jadi untuk mencapai beberapa matlamat.

Setiap persekitaran teks boleh diwakili secara rasmi sebagai proses keputusan Markov (POMDP) yang boleh diperhatikan separa bersyarat matlamat dengan 7 tuple (S,A,T,O,R,C,D), S mewakili ruang Negeri , A mewakili ruang tindakan, T: S×A→S mewakili fungsi transformasi, O mewakili fungsi pemerhatian, R: S×A→R mewakili fungsi ganjaran, C mewakili "mesej konteks" bahasa semula jadi yang menerangkan sasaran dan semantik tindakan, D: S×A→{0,1} mewakili fungsi penunjuk penyiapan binari.

Tugas Simulator Model Besar (LLM-Sim)

Para penyelidik mencadangkan tugas ramalan, dipanggil LLM as-a-Simulator (LLM-Sim model), untuk keupayaan kuantitatif untuk berfungsi sebagai simulator yang boleh dipercayai.

LLM-Tugas Sim ialah melaksanakan fungsi F : C×S×A→S×R×{0,1} sebagai simulator dunia. Dalam amalan, simulator peralihan keadaan lengkap F harus mempertimbangkan dua jenis peralihan keadaan: peralihan dipacu tindakan dan peralihan dipacu persekitaran.

Rajah 1 ialah contoh penggunaan LLM sebagai simulator permainan teks: selepas sinki dibuka, cawan di dalam sinki diisi dengan air. Peralihan yang didorong oleh tindakan ialah selepas mengambil tindakan untuk membuka singki, singki dibuka (isOn=true), manakala peralihan yang didorong oleh persekitaran ialah apabila singki dibuka, air memenuhi cawan di dalam singki.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Untuk lebih memahami keupayaan LLM untuk memodelkan setiap peralihan, para penyelidik menguraikan lagi fungsi simulator F kepada tiga langkah:

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Simulator peralihan dipacu tindakan dan : Diberikan. , F_act: C×S×A→S meramalkan s^act_t+1, dengan s^act_t+1 mewakili perubahan keadaan langsung yang disebabkan oleh tindakan.
Simulator peralihan dipacu alam sekitar: Diberi c dan s^act_t+1, F_env: C×S→S meramalkan s_t+1, dengan s_t+1 ialah keadaan yang terhasil daripada mana-mana peralihan dipacu persekitaran.
Simulator Kemajuan Permainan: Diberi c, s_t+1 dan a_t, F_R: C×S×A→R×{0,1} meramalkan ganjaran r_t+1 dan keadaan penyelesaian permainan d_t+1.

Selain itu, penyelidik mempertimbangkan dua varian tugas LLM-Sim

Ramalan keadaan penuh: LLM mengeluarkan output lengkap
Ramalan perbezaan keadaan: LLM hanya mengeluarkan perbezaan antara keadaan input dan output.

Data dan Penilaian

Untuk menyelesaikan tugasan ini, penyelidik memperkenalkan set data peralihan keadaan permainan teks baharu. Set data ialah "BYTESIZED32-State-Prediction (BYTESIZED32-SP)", yang mengandungi 76,369 transformasi, dinyatakan sebagai (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1 ,d_t +1) tupel . Peralihan ini dikumpulkan daripada 31 permainan teks yang berbeza.

Jadual 1 di bawah meringkaskan statistik korpus tambahan.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Les performances sur LLM-Sim sont déterminées par la précision de prédiction du modèle par rapport aux véritables étiquettes sur l'ensemble de données de l'échantillon de test. Selon les conditions expérimentales, LLM doit simuler les propriétés des objets (simulant F_act, F_env ou F) et/ou la progression du jeu (simulant F_R ou F), définies comme suit :

Propriétés de l'objet : tous les objets dans le jeu, chacun Les propriétés d'un objet (telles que la température, la taille) et sa relation avec d'autres objets (telles que le fait d'être à l'intérieur ou sur un autre objet).
Progression du jeu : Le statut de l'agent par rapport à l'objectif global, y compris les récompenses actuellement accumulées, si le jeu a été terminé et si l'objectif global a été atteint.

Les chercheurs ont remarqué que dans chaque cas, LLM fournissait la vérité terrain sur l'état précédent (lorsque la fonction est F_env, l'état précédent est s^act_t+1) ainsi que le contexte global de la tâche. Autrement dit, LLM effectue toujours une prédiction en une seule étape.

Résultats expérimentaux

La figure 1 ci-dessus démontre l'utilisation par le chercheur de l'apprentissage contextuel pour évaluer les performances du modèle dans la tâche LLM-Sim. Ils ont évalué l’exactitude de GPT-4 dans les mécanismes complets de prédiction de l’état et des différences d’état. Le modèle reçoit l'état précédent (codé sous forme d'objet JSON), les actions précédentes et les messages contextuels, et produit l'état suivant (sous forme d'objet JSON complet ou de différence).

Le tableau 2 ci-dessous montre la précision de GPT-4 pour simuler des transitions d'état complètes, ainsi que pour simuler individuellement des transitions pilotées par l'action et des transitions pilotées par l'environnement.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Les chercheurs ont fait les découvertes importantes suivantes :

Il est plus facile de prédire les conversions basées sur l'action que de prédire les conversions basées sur l'environnement. Dans le meilleur des cas, GPT-4 est capable de simuler correctement 77,1 % des transitions dynamiques pilotées par des actions. En comparaison, GPT-4 simule correctement au plus 49,7 % des transformations dynamiques basées sur l'environnement.

Il est plus facile de prédire les transitions statiques que les transitions dynamiques. Comme prévu, dans la plupart des cas, il est beaucoup plus facile de modéliser des transformations statiques que des transformations dynamiques.

Pour les états dynamiques, il est plus facile de prédire l'état complet du jeu ; tandis que pour les états statiques, il est plus facile de prédire les différences d'état. La prévision des différences d'état dans les états dynamiques peut améliorer considérablement les performances (> 10 %) lors de la simulation de transitions statiques, tandis que les performances diminuent lors de la simulation de transitions dynamiques.

Les règles du jeu sont très importantes, LLM peut générer des règles de jeu suffisamment bonnes. Lorsqu'aucune règle de jeu n'est fournie dans le message contextuel, les performances de GPT-4 sur les trois tâches de simulation se dégradent dans la plupart des cas.

GPT-4 peut prédire la progression du jeu dans la plupart des cas. Le tableau 3 ci-dessous montre les résultats de GPT-4 prédisant la progression du jeu. Avec les informations sur les règles du jeu en contexte, GPT-4 peut prédire correctement la progression du jeu dans 92,1 % des cas de test. La présence de ces règles est cruciale dans le contexte : sans elles, la précision des prédictions de GPT-4 tombe à 61,5 %.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Les performances humaines sur les tâches LLM-Sim sont meilleures que celles de GPT-4. Les chercheurs ont mené des études préliminaires sur l’homme sur la tâche LLM-Sim. Les résultats sont présentés dans le tableau 4 ci-dessous.

Il a été constaté que la précision globale des humains était de 80 %, tandis que la précision des LLM échantillonnés était de 50 %, avec peu de différence entre les différents annotateurs. Cela montre que même si la tâche est généralement intuitive et relativement facile pour les humains, il reste encore beaucoup à faire pour les LLM.

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

GPT-4 est plus sujet aux erreurs lorsque des connaissances arithmétiques, de bon sens ou scientifiques sont requises. La figure 2 ci-dessous montre la proportion de résultats prédits qui étaient corrects, la proportion qui a défini l'attribut sur une valeur incorrecte ou la proportion qui n'a pas réussi à modifier la valeur de l'attribut pour les transitions d'état globales, les transitions pilotées par l'action et les transitions pilotées par l'environnement.

Nous pouvons observer que GPT-4 est capable de très bien gérer la plupart des attributs booléens simples. Les erreurs se regroupent autour de propriétés non triviales qui nécessitent des connaissances arithmétiques (par exemple, température, timeAboveMaxTemp), du bon sens (par exemple, current_aperture, current_focus) ou des connaissances scientifiques (par exemple, on).

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux.

Atas ialah kandungan terperinci Kesimpulan akhir kertas ACL 2024: model bahasa besar ≠ simulator dunia, Yann LeCun: Betul sekali. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!