


Keupayaan aritmetik hampir kepada skor sempurna! Universiti Nasional Singapura mengeluarkan Kambing, yang membunuh GPT-4 dengan hanya 7 bilion parameter dan pada mulanya menyokong pendaraban dan pembahagian 16 digit.
Walaupun model bahasa berskala besar telah menunjukkan prestasi unggul dalam pelbagai tugas pemprosesan bahasa semula jadi, masalah aritmetik masih menjadi kesukaran besar, walaupun untuk GPT- 4 yang paling berkuasa juga sukar untuk ditangani dengan masalah asas aritmetik.
Baru-baru ini, penyelidik dari Universiti Nasional Singapura mencadangkan Kambing, model yang didedikasikan untuk aritmetik Selepas penalaan halus pada model LLaMA, ia mencapai prestasi yang jauh lebih baik daripada GPT-4 kemahiran.
Pautan kertas: https://arxiv.org/pdf/2305.14201.pdf
Dengan menala halus pada set data aritmetik sintetik, Goat mencapai prestasi terkini pada subtugas aritmetik BIG-bench,
Kambing Melalui penalaan halus diselia sahaja, adalah mungkin untuk mencapai ketepatan yang hampir sempurna dalam operasi penambahan dan penolakan bilangan besar, mengatasi semua model bahasa pra-latihan sebelumnya, seperti Bloom, OPT, GPT-NeoX, dll. Antaranya, sampel sifar Kambing-7B mencapai Ketepatan malah melebihi PaLM-540 selepas pembelajaran beberapa pukulan Para penyelidik mengaitkan prestasi cemerlang Kambing dengan teknologi pembahagian kata LLaMA yang konsisten untuk nombor.
Untuk menyelesaikan tugasan yang lebih mencabar seperti pendaraban dan pembahagian nombor besar, penyelidik juga mencadangkan kaedah untuk mengklasifikasikan tugasan mengikut kebolehpelajaran aritmetik dan kemudian menggunakan prinsip asas aritmetik memecahkan bukan- tugasan yang boleh dipelajari, seperti pendaraban dan pembahagian berbilang digit, ke dalam urutan tugasan yang boleh dipelajari.
Selepas pengesahan percubaan menyeluruh, langkah penguraian yang dicadangkan dalam artikel boleh meningkatkan prestasi aritmetik dengan berkesan.
Dan Goat-7 B boleh dilatih dengan cekap menggunakan LoRA pada GPU VRAM 24 GB, penyelidik lain boleh mengulangi eksperimen dengan mudah, model, set data dan ular sawa yang menghasilkan dataset Skrip akan menjadi sumber terbuka tidak lama lagi.
Model bahasa yang boleh dikira
Model bahasaLLaMA Ia ialah satu set model bahasa pra-latihan sumber terbuka yang dilatih pada trilion token menggunakan set data yang tersedia secara umum dan mencapai prestasi terkini pada berbilang penanda aras.
Hasil penyelidikan terdahulu menunjukkan bahawa tokenisasi adalah penting untuk keupayaan aritmetik LLM, tetapi teknik tokenisasi yang biasa digunakan tidak boleh mewakili nombor dengan baik, contohnya, nombor dengan terlalu banyak digit mungkin akan dibahagikan.
LLaMA memilih untuk membahagikan nombor kepada berbilang token untuk memastikan ketekalan perwakilan digital Keupayaan aritmetik luar biasa yang ditunjukkan dalam keputusan adalah disebabkan terutamanya oleh pembahagian nombor LLaMA yang konsisten.
Dalam percubaan, model bahasa diperhalusi lain, seperti Bloom, OPT, GPT-NeoX dan Pythia, tidak dapat memadankan keupayaan aritmetik LLaMA.
Kebolehpelajaran Tugasan Aritmetik
Sebelum ini Pengkaji menjalankan analisis teori menggunakan perantaraan penyeliaan untuk menyelesaikan tugasan komposit dan menunjukkan bahawa tugasan tersebut tidak boleh dipelajari tetapi boleh diuraikan kepada nombor polinomial subtugasan mudah.
Iaitu, masalah kompaun yang tidak boleh dipelajari boleh dipelajari dengan menggunakan penyeliaan pertengahan atau rantaian langkah (CoT).
Berdasarkan analisis ini, penyelidik mula-mula mengelaskan tugasan yang boleh dipelajari dan tidak boleh dipelajari secara eksperimen.
Dalam konteks pengkomputeran aritmetik, tugasan yang boleh dipelajari secara amnya merujuk kepada tugasan yang mana model boleh dilatih dengan jayanya untuk menjana jawapan secara langsung, dengan itu mencapai tahap yang cukup tinggi dalam bilangan yang telah ditetapkan. zaman latihan.
Tugas yang tidak boleh dipelajari ialah tugasan yang model mengalami kesukaran belajar dengan betul dan menjana jawapan langsung walaupun selepas latihan yang meluas.
Walaupun sebab yang tepat di sebalik perubahan dalam kebolehpelajaran tugasan tidak difahami sepenuhnya, ia boleh dihipotesiskan bahawa ia berkaitan dengan kerumitan corak asas dan saiz memori kerja yang diperlukan untuk melengkapkan tugas itu.
Para penyelidik secara eksperimen mengkaji kebolehlaksanaan tugas-tugas ini dengan memperhalusi model khusus untuk setiap tugasan dalam sintetik yang dipermudahkan. persekitaran.
Tugas yang boleh dipelajari dan tidak boleh dipelajari
Hasil pengkelasan tugasan juga sama seperti persepsi manusia Dengan amalan, manusia boleh mengira penambahan dan penolakan dua nombor besar dalam fikiran mereka, terus dari kiri (digit paling bererti) ke kanan tanpa pengiraan secara manual ) Tulis jawapan berangka akhir.
Tetapi aritmetik mental untuk menyelesaikan pendaraban dan pembahagian nombor besar adalah tugas yang mencabar.
Dapat juga diperhatikan bahawa hasil pengelasan tugas di atas juga konsisten dengan prestasi GPT-4 Khususnya, GPT-4 pandai menjana jawapan langsung untuk penambahan dan penolakan nombor besar, apabila ia datang kepada Ketepatan menurun dengan ketara apabila ia melibatkan tugas pendaraban dan pembahagian berbilang bit.
Ketidakupayaan model berkuasa seperti GPT-4 untuk menyelesaikan secara langsung tugasan yang tidak boleh dipelajari juga mungkin menunjukkan bahawa menjana jawapan langsung untuk tugasan ini amat mencabar walaupun selepas latihan yang meluas .
Perlu diambil perhatian bahawa tugasan yang boleh dipelajari untuk LLaMA mungkin tidak semestinya boleh dipelajari untuk LLM lain.
Selain itu, bukan semua tugasan yang diklasifikasikan sebagai tidak boleh dipelajari sama sekali mustahil untuk model belajar.
Sebagai contoh, mendarab nombor dua digit dengan nombor dua digit dianggap sebagai tugas yang tidak boleh dipelajari, tetapi jika set latihan mengandungi semua data penghitungan pendaraban 2 digit yang mungkin, model masih melakukan Jawapan boleh dijana secara langsung dengan memasang set latihan terlebih dahulu.
Walau bagaimanapun, keseluruhan proses memerlukan hampir 10 zaman untuk mencapai ketepatan kira-kira 90%.
Dengan memasukkan CoT yang dicadangkan dalam artikel sebelum jawapan akhir, model boleh mencapai ketepatan yang agak baik dalam pendaraban dua digit selepas 1 zaman latihan, yang juga konsisten dengan Kajian terdahulu telah secara konsisten membuat kesimpulan bahawa kehadiran penyeliaan pertengahan memudahkan proses pembelajaran.
Tambahan dan penolakan
Kedua-dua operasi aritmetik ini boleh dipelajari, hanya melalui penalaan halus diselia, model Ia menunjukkan keupayaan luar biasa untuk menjana jawapan berangka langsung dengan tepat.
Ini terbukti daripada fakta bahawa model itu mencapai ketepatan hampir sempurna pada set ujian yang tidak kelihatan, walaupun dilatih pada subset data tambahan yang sangat terhad, model itu berjaya menangkap corak asas operasi aritmetik tanpa menggunakan CoT
Eksperimen telah mengesahkan bahawa pendaraban nombor n-digit dengan nombor satu digit boleh dipelajari, tetapi pendaraban berbilang digit tidak boleh dipelajari .
Untuk mengatasi masalah ini, penyelidik memilih untuk memperhalusi LLM untuk menjana CoT sebelum menjana jawapan, memecahkan pendaraban berbilang digit kepada 5 subtugas yang boleh dipelajari:
1. Pengekstrakan, mengekstrak ungkapan aritmetik daripada arahan bahasa semula jadi
2. Bahagikan, membahagikan yang lebih baik daripada dua nombor kecil dipecahkan kepada nilai tempat
3. Pengembangan, penjumlahan berdasarkan pengembangan pengedaran
4, kira setiap produk secara serentak
5 penggal demi penggal, tambah dua sebutan pertama, salin istilah yang tinggal dan dapatkan jumlah akhir
Setiap satu daripada ini tugas boleh dipelajari.
Pembahagian
Begitu juga, boleh diperhatikan secara eksperimen bahawa membahagi n digit dengan 1 digit boleh dipelajari, manakala pembahagian berbilang digit tidak boleh dipelajari.
Para penyelidik mereka bentuk gesaan rantaian pemikiran baharu menggunakan persamaan rekursi yang memperbaik pembahagian perlahan.
Idea utama ialah menolak gandaan dividen daripada dividen sehingga bakinya kurang daripada pembahagi.
Dataset
Direka dalam artikel Percubaan ialah penambahan dan penolakan dua integer positif, setiap integer positif mengandungi sehingga 16 digit, dan hasil operasi tolak mungkin nombor negatif.
Untuk mengehadkan panjang jujukan maksimum yang dihasilkan, hasil pendaraban ialah integer positif dalam 12 digit dalam pembahagian dua integer positif, dividen adalah kurang daripada 12 digit dan hasil bagi adalah dalam 6 digit.
Penyelidik menggunakan skrip Python untuk mensintesis set data yang menghasilkan kira-kira 1 juta pasangan soalan-jawapan. Jawapan mengandungi CoT yang dicadangkan dan output berangka akhir. , yang menjamin bahawa kebarangkalian contoh pendua adalah sangat rendah, tetapi bilangan yang kecil boleh diambil beberapa kali.
Penalaan halus
Untuk membolehkan model menyelesaikan masalah aritmetik berdasarkan arahan dan memudahkan menjawab soalan bahasa semula jadi , penyelidik Beratus-ratus templat arahan dijana menggunakan ChatGPT.
Semasa proses penalaan arahan, templat dipilih secara rawak daripada set latihan untuk setiap input aritmetik dan LLaMA-7B yang diperhalusi, serupa dengan kaedah yang digunakan dalam Alpaca.
Goat-7B boleh diperhalusi menggunakan LoRA pada GPU VRAM 24GB, hanya mengambil masa kira-kira 1.5 jam untuk melengkapkan 100,000 sampel pada GPU A100 penalaan halus dan mencapai ketepatan yang hampir sempurna.
Keputusan eksperimen
Nampaknya tidak adil untuk membandingkan prestasi Kambing dan GPT-4 pada pendaraban dan pembahagian yang besar, kerana GPT-4 menjana jawapan secara langsung, manakala Goat It bergantung pada rantai pemikiran reka bentuk, jadi semasa penilaian GPT-4, "Selesaikannya langkah demi langkah" telah ditambahkan pada penghujung setiap gesaan
Walau bagaimanapun, dapat diperhatikan bahawa walaupun GPT-4 dalam beberapa kes, langkah perantaraan pendaraban dan pembahagian panjang adalah salah, jawapan akhir masih betul, yang bermaksud GPT-4 tidak menggunakan pemikiran Penyeliaan pertengahan rantaian untuk menambah baik keluaran akhir.
3 ralat biasa berikut akhirnya dikenal pasti daripada penyelesaian GPT-4:
1 Penjajaran nombor yang sepadan
2. Nombor berulang
3 Hasil perantaraan darab n digit dengan 1 digit adalah salah
Daripada eksperimen Ia boleh dilihat daripada keputusan bahawa GPT-4 berprestasi agak baik pada tugasan 8D+8D dan 16D+16D, tetapi keputusan pengiraan pada kebanyakan tugasan 16D+8D adalah salah, walaupun secara intuitif, 16D+8D sepatutnya lebih mudah daripada 16D+ 16D.
Walaupun punca sebenar perkara ini tidak jelas, satu faktor yang mungkin adalah proses pembahagian digit GPT-4 yang tidak konsisten, menjadikannya sukar untuk menjajarkan antara dua digit
Atas ialah kandungan terperinci Keupayaan aritmetik hampir kepada skor sempurna! Universiti Nasional Singapura mengeluarkan Kambing, yang membunuh GPT-4 dengan hanya 7 bilion parameter dan pada mulanya menyokong pendaraban dan pembahagian 16 digit.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
