Rumah > Peranti teknologi > AI > Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya

Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya

PHPz
Lepaskan: 2024-04-22 17:22:07
ke hadapan
480 orang telah melayarinya

Adakah model bahasa merancang untuk token masa hadapan? Kertas ini memberi anda jawapannya.

"Jangan biarkan Yann LeCun melihatnya." Persoalan yang dibincangkan dalam kertas kerja "LeCun Must Read" yang akan saya perkenalkan hari ini ialah: Adakah Transformer merupakan model bahasa yang bijak? Apabila ia melakukan inferens di lokasi tertentu, adakah ia menjangkakan lokasi berikutnya?

Kesimpulan kajian ini ialah: Transformer mempunyai keupayaan untuk melakukan ini, tetapi tidak melakukannya dalam amalan. Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya

Kita semua tahu bahawa manusia berfikir sebelum bercakap. Sepuluh tahun penyelidikan linguistik menunjukkan bahawa apabila manusia menggunakan bahasa, mereka secara mental meramalkan input bahasa, perkataan atau ayat yang akan datang.

Tidak seperti manusia, model bahasa semasa memperuntukkan jumlah pengiraan tetap kepada setiap token apabila "bercakap". Jadi kita tidak boleh tidak bertanya: Adakah model bahasa akan berfikir terlebih dahulu seperti manusia?

Menurut beberapa penyelidikan baru-baru ini, telah menunjukkan bahawa token seterusnya boleh diramalkan dengan meneliti keadaan tersembunyi model bahasa. Menariknya, dengan menggunakan probe linear pada keadaan tersembunyi model, output model pada token masa hadapan boleh diramalkan pada tahap tertentu, dan output masa depan boleh diubah suai secara diramalkan. Beberapa penyelidikan baru-baru ini telah menunjukkan bahawa adalah mungkin untuk meramalkan token seterusnya dengan meneliti keadaan tersembunyi model bahasa. Menariknya, dengan menggunakan probe linear pada keadaan tersembunyi model, output model pada token masa hadapan boleh diramalkan pada tahap tertentu, dan output masa depan boleh diubah suai secara diramalkan.

Penemuan ini menunjukkan bahawa pengaktifan model pada langkah masa tertentu adalah sekurang-kurangnya sebahagiannya meramalkan output masa hadapan.

Walau bagaimanapun, kami belum tahu sebabnya: adakah ini hanya sifat tidak sengaja bagi data, atau adakah kerana model sengaja menyediakan maklumat untuk langkah masa hadapan (tetapi ini menjejaskan prestasi model di lokasi semasa)?

Untuk menjawab soalan ini, tiga penyelidik dari University of Colorado Boulder dan Cornell University baru-baru ini menerbitkan artikel bertajuk "Adakah model bahasa merancang token masa depan?" 》Tesis. . bukan sahaja mengoptimumkan berat untuk kehilangan kedudukan token semasa, tetapi juga mengoptimumkan token kemudian dalam urutan. Mereka selanjutnya bertanya: Dalam bahagian berapakah berat pengubah semasa akan memperuntukkan sumber kepada token semasa dan token masa hadapan?

Mereka mempertimbangkan dua kemungkinan: hipotesis pra-caching dan hipotesis serbuk roti.

Hipotesis pra-caching bermakna pengubah akan mengira ciri pada langkah masa t yang tidak berkaitan dengan tugasan inferens langkah masa semasa tetapi mungkin berguna untuk langkah masa hadapan t + τ, manakala hipotesis serbuk roti bermakna ciri yang paling berkaitan dengan langkah masa t Ciri-ciri sudah bersamaan dengan ciri yang paling berguna pada langkah masa t + τ. Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya

Untuk menilai hipotesis mana yang betul, pasukan mencadangkan skim latihan rabun yang tidak menyebarkan kecerunan kerugian pada kedudukan semasa kepada keadaan tersembunyi pada kedudukan sebelumnya.

Sila rujuk kertas asal untuk definisi matematik dan penerangan teori tentang andaian dan penyelesaian di atas.

Hasil eksperimen

Untuk memahami sama ada model bahasa boleh melaksanakan pracaching secara langsung, mereka mereka bentuk senario sintetik di mana tugas itu hanya boleh dicapai melalui pracaching eksplisit. Mereka mengkonfigurasi tugas di mana model perlu membuat prakiraan maklumat untuk token seterusnya, jika tidak, ia tidak akan dapat mengira jawapan yang betul dengan tepat dalam satu laluan.的 Definisi set data sintetik yang dibina oleh pasukan.

Dalam adegan sintetik ini, pasukan menemui bukti jelas bahawa transformer boleh belajar membuat pra-cache. Model jujukan berasaskan pengubah melakukan ini apabila mereka mesti mengira maklumat terlebih dahulu untuk meminimumkan kerugian.

Transformer boleh berfikir ke hadapan, tetapi tidak melakukannyaKemudian mereka meneroka sama ada model bahasa semula jadi (varian GPT-2 yang telah dilatih) akan mempamerkan hipotesis serbuk roti atau hipotesis pra-caching. Eksperimen mereka dengan skim latihan rabun menunjukkan bahawa pracaching berlaku lebih jarang dalam tetapan ini, jadi hasilnya lebih berat sebelah ke arah hipotesis serbuk roti.

                                                                                                                                                                                                                                                                                                                                                                                2 berdasarkan kedudukan token dan model GPT-2 rabun.原 GPT-2 Mengesahkan kehilangan entropi silang yang diperoleh melalui latihan primitif dan bersaiz pendek.

Jadi pasukan itu mendakwa: Pada data bahasa sebenar, model bahasa tidak menyediakan maklumat masa depan dengan ketara. Sebaliknya, ia adalah ciri pengiraan yang berguna untuk meramalkan token seterusnya — yang juga akan terbukti berguna untuk langkah masa hadapan. Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya

Pasukan berkata: "Dalam data bahasa, kami memerhatikan bahawa tidak ada pertukaran yang ketara antara mengoptimumkan secara tamak untuk kerugian token seterusnya dan memastikan prestasi ramalan masa depan Jadi kami mungkin dapat melihat Keluar, persoalan sama ada Transformer boleh berpandangan jauh nampaknya pada asasnya merupakan soalan data.

Transformer boleh berfikir ke hadapan, tetapi tidak melakukannyaBoleh difikirkan mungkin pada masa hadapan kita boleh menggunakan kaedah pemprosesan data yang sesuai untuk memberi model bahasa kebolehan berfikir terlebih dahulu seperti manusia.

Atas ialah kandungan terperinci Transformer boleh berfikir ke hadapan, tetapi tidak melakukannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan