Keputusan baharu yang ditemui baru-baru ini oleh Google DeepMind telah menyebabkan kontroversi meluas dalam medan Transformer:
Keupayaan generalisasinya tidak boleh diperluaskan kepada kandungan di luar data latihan.
Kesimpulan ini belum lagi disahkan, tetapi ia telah membimbangkan banyak nama besar Contohnya, Francois Chollet, bapa Keras, berkata bahawa jika berita itu Benar, ia akan menjadi perkara besar dalam dunia model besar.
Google Transformer ialah infrastruktur di sebalik model besar hari ini, dan "T" dalam GPT yang kita kenali merujuk kepadanya.
Serangkaian model besar menunjukkan keupayaan pembelajaran kontekstual yang kukuh dan boleh mempelajari contoh dengan cepat dan menyelesaikan tugasan baharu.
Tetapi kini, penyelidik juga dari Google nampaknya telah menunjukkan kelemahannya yang maut - di luar data latihan, iaitu pengetahuan manusia yang sedia ada, ia tidak berkuasa.
Untuk sementara waktu, ramai pengamal percaya bahawa AGI telah tidak dapat dicapai lagi.
Beberapa netizen menegaskan bahawa terdapat beberapa butiran penting yang telah diabaikan dalam kertas, seperti eksperimen hanya melibatkan skala GPT-2 , dan data latihan tidak mencukupi Kaya
Semakin masa berlalu, lebih ramai netizen yang mengkaji kertas ini dengan teliti menunjukkan bahawa tidak ada yang salah dengan kesimpulan penyelidikan itu sendiri, tetapi orang berdasarkan Ini adalah tafsiran yang berlebihan.
Selepas kertas itu mencetuskan perbincangan hangat di kalangan netizen, salah seorang penulis turut membuat dua penjelasan secara terbuka:
Pertama , Percubaan menggunakan Transformer mudah, yang bukan model "besar" mahupun model bahasa; 🎜#新TYPE
Task
Sejak itu, seorang lagi netizen mengulangi percubaan ini dalam Colab, tetapi mendapat keputusan yang sama sekali berbeza . Jadi, mari kita lihat dahulu kertas kerja ini dan apa yang Samuel, yang mencadangkan keputusan berbeza, katakan.Fungsi baharu hampir tidak dapat diramalkan
Dalam eksperimen ini, penulis menggunakan rangka kerja pembelajaran mesin berasaskan Jax untuk melatih model Transformer dengan skala yang hampir dengan GPT-2, yang hanya mengandungi bahagian Penyahkod
Untuk menguji keupayaan generalisasi, pengarang memilih fungsi sebagai objek ujian. Mereka memasukkan fungsi linear dan fungsi sinus ke dalam model sebagai data latihan
Kedua-dua fungsi ini diketahui oleh model pada masa ini, dan hasil yang diramalkan secara semula jadi sangat baik, tetapi apabila penyelidik meletakkan Masalah linear timbul apabila gabungan cembung bagi fungsi dan fungsi sinus dilakukan.
Gabungan cembung tidak begitu misteri Pengarang membina fungsi bentuk f(x)=a·kx+(1-a)sin(x), yang pada pendapat kami hanyalah dua Fungsi. hanya tambah secara berkadar.
Sebab mengapa kita fikir ini adalah kerana otak kita mempunyai keupayaan generalisasi ini, tetapi model berskala besar adalah berbeza
Untuk model yang hanya mempelajari fungsi linear dan sinus Untuk ini fungsi baru, ramalan Transformer hampir tiada ketepatan (lihat Rajah 4c), jadi penulis percaya bahawa model tidak mempunyai generalisasi pada fungsi Ability
Untuk mengesahkan lagi kesimpulannya, penulis melaraskan berat fungsi linear atau sinus, tetapi walaupun begitu, prestasi ramalan Transformer tidak berubah dengan ketara.
Terdapat satu pengecualian - apabila berat salah satu item menghampiri 1, hasil ramalan model lebih konsisten dengan keadaan sebenar.
Jika beratnya 1, ini bermakna fungsi baru yang tidak dikenali secara langsung menjadi fungsi yang telah dilihat semasa latihan. Data seperti ini jelas tidak membantu untuk keupayaan generalisasi model#🎜🎜 ##🎜 🎜#
Eksperimen lanjut juga menunjukkan Transformer bukan sahaja sangat sensitif kepada jenis fungsi, malah jenis fungsi yang sama mungkin menjadi keadaan yang tidak biasa.
Pengkaji mendapati bahawa apabila menukar frekuensi fungsi sinus, walaupun model fungsi mudah, keputusan ramalan akan kelihatan berubah
Hanya apabila frekuensi hampir dengan itu dalam Fungsi data latihan, model boleh memberikan ramalan yang lebih tepat Apabila frekuensi terlalu tinggi atau terlalu rendah, keputusan ramalan mempunyai penyelewengan yang serius...
#. 🎜🎜# Berdasarkan perkara ini, penulis percaya bahawa selagi syaratnya berbeza sedikit, model besar tidak akan tahu bagaimana untuk melakukannya. Bukankah ini bermakna keupayaan generalisasi adalah lemah?
Penulis juga menerangkan beberapa batasan dalam penyelidikan, dan cara menggunakan pemerhatian pada data berfungsi kepada masalah bahasa semula jadi yang ditandakan. Pasukan juga mencuba eksperimen serupa pada model bahasa tetapi menghadapi beberapa halangan. Walau bagaimanapun, model Samuel adalah kecil, dengan hanya 4 lapisan Ia boleh digunakan pada gabungan fungsi linear dan sinus selepas 5 minit latihan di Colab#🎜 🎜. #Jadi bagaimana jika ia tidak boleh digeneralisasikanBerdasarkan kandungan komprehensif keseluruhan artikel, kesimpulan CEO Quora dalam artikel ini adalah sangat sempit dan hanya boleh diwujudkan apabila banyak andaian adalah benar
Pemenang Hadiah Sloan dan profesor UCLA Gu Quanquan berkata bahawa kesimpulan kertas ini sendiri tidak kontroversi, tetapi ia tidak sepatutnya menjadi Terlalu Ditafsirkan.Menurut kajian terdahulu, model Transformer tidak boleh membuat generalisasi hanya apabila berhadapan dengan kandungan yang berbeza dengan ketara daripada data pra-latihan. Malah, keupayaan generalisasi model besar biasanya dinilai oleh kepelbagaian dan kerumitan tugas
Jika keupayaan generalisasi Transformer disiasat dengan teliti, saya Saya takut peluru akan terbang untuk seketika lagi.Tetapi walaupun kita benar-benar kurang keupayaan untuk membuat generalisasi, apa yang boleh kita lakukan?
Saintis AI NVIDIA Jim Fan berkata bahawa fenomena ini sebenarnya tidak menghairankan, kerana Transformer
bukan ubat penawar di tempat pertamamodel besar berprestasi baik kerana#🎜 🎜#. Data latihan adalah perkara yang kami pentingkan
.Jim seterusnya menambah bahawa ini seperti berkata, gunakan 100 bilion foto kucing dan anjing untuk melatih model visual, dan kemudian biarkan model mengenal pasti Hidup kapal terbang, saya sedar, wow, saya benar-benar tidak mengenali dia.
Apabila manusia menghadapi beberapa tugas yang tidak diketahui, bukan sahaja model berskala besar mungkin tidak dapat mencari penyelesaian. Adakah ini juga membayangkan bahawa manusia kekurangan keupayaan generalisasi?
Oleh itu, dalam proses berorientasikan matlamat, sama ada model besar atau manusia, matlamat utama adalah untuk menyelesaikan masalah, dan generalisasi hanyalah sarana
Tukar ungkapan ini kepada bahasa Cina Memandangkan keupayaan generalisasi tidak mencukupi, kemudian latih ia sehingga tiada data selain daripada sampel latihan
Jadi, apa pendapat anda tentang penyelidikan ini?
Alamat kertas: https://arxiv.org/abs/2311.00871
Atas ialah kandungan terperinci Penyelidikan model besar Google telah mencetuskan kontroversi sengit: keupayaan generalisasi di luar data latihan telah dipersoalkan, dan netizen berkata bahawa singulariti AGI mungkin ditangguhkan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!