Jadual Kandungan
Fikir titik demi titik
Model tidak mempunyai alasan
Rumah Peranti teknologi AI Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Jun 02, 2024 pm 03:21 PM
teknologi Model

Teknologi rantaian pemikiran yang popular mungkin akan digulingkan!

Masih terkejut bahawa model besar sebenarnya boleh berfikir langkah demi langkah menggunakan rantai pemikiran?

Masih bergelut untuk menulis kata-kata gesaan rantaian pemikiran?

Penyelidik dari Universiti New York berkata: "Tidak mengapa, semuanya sama

Langkah penaakulan tidak penting. Anda tidak perlu menulis perkataan segera jika tidak mahu, gunakan elipsis sahaja. . demi langkah", menunjukkan kuasa "ellipsis".

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkanKuasa "titik dan titik"

Penyelidik mendapati bahawa menggantikan langkah khusus dalam penaakulan Chain-of-Thought (CoT) dengan "..." yang tidak bermakna akan menghasilkan keputusan penaakulan juga agak berbeza.

Sebagai contoh, dalam contoh berikut: biarkan model mengira berapa banyak daripada 6 nombor pertama yang lebih besar daripada 5.

Jika anda terus melemparkan soalan dan membiarkan model menjawabnya, hasilnya akan menjadi luar biasa: 6 daripada 7.

Sebaliknya, menggunakan gesaan rantai pemikiran, model akan membandingkan saiz langkah demi langkah, dan akhirnya mendapat jawapan yang betul: "25, 15, 25 , itu 3 digit".

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkanTetapi apa yang lebih keterlaluan ialah kaedah "metafizik" yang digunakan dalam artikel ini: tidak perlu menulis langkah-langkah, anda hanya perlu mengeluarkan bilangan "titik" yang sama dan ia tidak menjejaskan keputusan akhir hasil.

——Ini bukan kebetulan. Sebilangan besar eksperimen telah membuktikan bahawa prestasi dua kaedah terakhir adalah hampir.

Dalam erti kata lain, kami menyangka bahawa peningkatan prestasi model datang daripada "fikir langkah demi langkah", tetapi sebenarnya ia mungkin hanya kerana LLM telah memperoleh kuasa pengkomputeran lebih banyak token!

Anda fikir model itu berfikir, tetapi sebenarnya ia memanggang. .

"Rantai pemikiran tidak pernah wujud dan tidak akan wujud pada masa hadapan" (Gotou).

Jacob Pfau, pengarang artikel, mengatakan bahawa karya ini membuktikan bahawa model tidak mendapat manfaat daripada penaakulan linguistik yang dibawa oleh rantai pemikiran Menggunakan berulang "..." untuk mengisi token boleh mencapai kesan yang sama sebagai CoT.

Sudah tentu, ini juga menimbulkan isu penjajaran: kerana fakta ini menunjukkan bahawa model itu boleh melakukan penaakulan tersembunyi yang tidak kelihatan dalam CoT, pada tahap tertentu di luar kawalan manusia. Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Terkejut netizen

Kesimpulan artikel itu boleh dikatakan telah meruntuhkan pengetahuan kita yang sudah lama ada, ada netizen berkata: mereka telah mempelajari intipati topeng.

"Apa maksud sebenarnya ini: model boleh menggunakan token ini untuk berfikir secara bebas tanpa pengetahuan kami." "Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Sesetengah netizen memulakan ujian amali secara langsung:

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Walaupun kita tidak tahu sama ada kefahamannya betul~

Namun, sesetengah netizen beranggapan bahawa rantaian pemikiran tersembunyi LLM itu tidak berasas. Lagipun, Keluaran model besar pada dasarnya berdasarkan kebarangkalian dan bukannya pemikiran sedar.

Petunjuk CoT hanya menjadikan subset corak statistik secara eksplisit, model mensimulasikan inferens dengan menjana teks yang konsisten dengan corak, tetapi mereka tidak mempunyai keupayaan untuk mengesahkan atau mencerminkan pada outputnya.

Fikir titik demi titik

Apabila berhadapan dengan masalah yang kompleks, kita manusia secara tidak sedar melakukan penaakulan langkah demi langkah.

Diilhamkan oleh ini, penyelidik Google menerbitkan Rantaian Pemikiran yang terkenal pada tahun 2022.

Kaedah yang memerlukan model bahasa untuk menyelesaikan masalah langkah demi langkah membolehkan model menyelesaikan masalah yang kelihatan tidak dapat diselesaikan sebelum ini, meningkatkan prestasi LLM dengan ketara, atau memanfaatkan potensi LLM.

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Alamat kertas: https://arxiv.org/pdf/2201.11903

Walaupun semua orang tidak tahu mengapa perkara ini berfungsi pada mulanya, ia cepat menjadi popular kerana ia sangat mudah digunakan. sebar.

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Dengan berlepas model besar dan projek perkataan pantas, CoT telah menjadi alat yang berkuasa untuk LLM menyelesaikan masalah yang kompleks.

Sudah tentu, terdapat banyak pasukan penyelidik yang meneroka prinsip kerja CoT dalam proses ini.

Model tidak mempunyai alasan

Peningkatan prestasi yang dibawa oleh rantai pemikiran adalah model yang benar-benar belajar untuk menyelesaikan masalah langkah demi langkah, atau adakah ia hanya kerana jumlah pengiraan tambahan yang dibawa oleh bilangan yang lebih lama token?

Oleh kerana anda tidak pasti sama ada penaakulan logik akan berfungsi, maka jangan gunakan logik dan gantikan semua langkah penaakulan dengan "..." yang pastinya tidak berguna.

Para penyelidik menggunakan model "alpaca kecil": parameter Llama 34M dengan 4 lapisan, 384 dimensi tersembunyi dan 6 kepala perhatian Parameter model dimulakan secara rawak.

Pertimbangkan dua soalan di sini:

(1) Apakah jenis data penilaian yang boleh mendapat manfaat daripada token padding

(2) Apakah jenis data latihan yang diperlukan untuk mengajar model menggunakan token padding

Dalam hal ini, penyelidik mereka bentuk 2 tugasan dan membina set data sintetik yang sepadan, setiap set data menyerlahkan keadaan berbeza di mana token pengisian boleh memberikan peningkatan prestasi untuk Transformer.

3SUM

Mari lihat tugas pertama yang lebih sukar dahulu: 3SUM. Model dikehendaki memilih tiga nombor dalam urutan yang memenuhi syarat Sebagai contoh, jumlah tiga nombor dibahagikan dengan 10 akan mempunyai baki 0.

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Dalam kes yang paling teruk, kerumitan tugas ini ialah kuasa ketiga N, dan kerumitan pengiraan antara lapisan Transformer ialah kuasa kedua N,

Jadi, Apabila panjang input urutan adalah sangat besar, masalah 3SUM secara semula jadi akan melebihi keupayaan ekspresi Transformer.

Percubaan menyediakan tiga kumpulan kawalan:

1. Token pengisian: Urutan menggunakan berulang ". . ." . .

Setiap titik mewakili token berasingan, yang sepadan dengan token dalam rantaian pemikiran berikut.

2. Penyelesaian Parallelizable CoT

, urutannya adalah dalam bentuk: "A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True".

Rantai pemikiran mengurangkan masalah 3SUM kepada satu siri masalah 2SUM dengan menulis semua jumlah perantaraan yang berkaitan (seperti ditunjukkan dalam rajah di bawah). Kaedah ini mengurangkan jumlah pengiraan masalah kepada kuasa N - Transformer boleh mengendalikannya dan boleh selari. .

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan Tidak seperti penyelesaian di atas, yang dengan bijak menguraikan 3SUM kepada sub-masalah yang boleh selari, di sini kami berharap dapat menggunakan kaedah heuristik untuk menjana rantaian pemikiran yang fleksibel untuk meniru penaakulan manusia. Pengiraan penyesuaian contoh jenis ini tidak serasi dengan struktur selari pengiraan token pengisian.

Seperti yang dapat dilihat daripada keputusan dalam rajah di atas, tanpa mengeluarkan token padding, ketepatan model secara amnya berkurangan apabila urutan menjadi lebih panjang, manakala apabila token padding digunakan, ketepatan kekal pada 100 % .

2SUM-Transform

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Tugas kedua ialah 2SUM-Transform Anda hanya perlu menilai sama ada jumlah dua nombor memenuhi keperluan, dan jumlah pengiraan adalah di bawah kawalan Transformer.

Walau bagaimanapun, untuk mengelakkan model daripada "menipu", token input dikira di tempatnya, dan setiap nombor yang dimasukkan digerakkan oleh offset rawak.

Hasilnya ditunjukkan dalam jadual di atas: ketepatan kaedah token pengisi mencapai 93.6%, yang sangat hampir dengan Rantaian-Pemikiran Tanpa padding perantaraan, ketepatan hanya 78.7%. Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan

Tetapi, adakah peningkatan ini hanya disebabkan oleh perbezaan dalam pembentangan data latihan, seperti melalui kecerunan kehilangan regularisasi?

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkanUntuk mengesahkan sama ada token pengisian membawa pengiraan tersembunyi yang berkaitan dengan ramalan akhir, penyelidik membekukan pemberat model dan hanya memperhalusi lapisan perhatian terakhir.

Keputusan di atas menunjukkan bahawa ketepatan model terus bertambah baik apabila lebih banyak token padding tersedia, menunjukkan bahawa token padding sememangnya melakukan pengiraan tersembunyi yang berkaitan dengan tugas ramalan 3SUM.

Limitations

Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkanWalaupun kaedah pengisian token bersifat metafizik, ajaib, malah berkesan, masih terlalu awal untuk mengatakan bahawa rantaian pemikiran telah terbalik.

Pengarang juga menyatakan bahawa kaedah pengisian token tidak melanggar had atas kerumitan pengiraan Transformer.

Dan belajar menggunakan token padding memerlukan proses latihan khusus Sebagai contoh, penyeliaan intensif digunakan dalam artikel ini untuk menjadikan model akhirnya bersatu.

Walau bagaimanapun, beberapa masalah mungkin telah timbul, seperti isu keselamatan tersembunyi, seperti sama ada projek kata cepat akan tiba-tiba tidak wujud satu hari nanti?

Atas ialah kandungan terperinci Rantaian pemikiran tidak lagi wujud? Penyelidikan terkini dari Universiti New York: Langkah penaakulan boleh ditinggalkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

See all articles