Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM-AI-php.cn

Jadual Kandungan

Ikhtisar Kaedah

Seni Bina

Hasil eksperimen

Rumah

Peranti teknologi

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

王林

Apr 12, 2023 pm 06:10 PM

parameter Model

Kami boleh memahami model bahasa besar (LLM) sebagai pelajar sampel kecil, yang boleh mempelajari tugas baharu dengan beberapa contoh, atau malah dengan arahan mudah, di mana bilangan parameter model adalah Penskalaan dengan saiz latihan data adalah kunci kepada keupayaan model untuk membuat generalisasi. Peningkatan dalam LLM ini disebabkan oleh kuasa pengkomputeran dan keupayaan storan yang lebih besar. Secara intuitif, keupayaan inferens yang lebih baik akan membawa kepada generalisasi yang lebih baik dan dengan itu kurang pembelajaran sampel, namun tidak jelas sejauh mana pembelajaran sampel kecil yang berkesan memerlukan pengetahuan yang luas tentang parameter model.

Setakat ini, model peningkatan perolehan tidak menunjukkan keupayaan pembelajaran sampel kecil yang meyakinkan. Dalam kertas itu, penyelidik dari Meta AI Research dan institusi lain bertanya sama ada pembelajaran sampel kecil memerlukan model untuk menyimpan sejumlah besar maklumat dalam parameternya, dan sama ada storan boleh dipisahkan daripada generalisasi. Mereka mencadangkan Atlas, iaitu sejenis model bahasa yang dipertingkatkan semula yang mempunyai keupayaan pembelajaran sampel kecil yang kukuh, walaupun bilangan parameter adalah lebih rendah daripada model pembelajaran sampel kecil berkuasa semasa yang lain.

Model menggunakan storan bukan parametrik, iaitu, menggunakan neural retriever berdasarkan sumber pengetahuan bukan statik luaran yang besar untuk meningkatkan model bahasa parametrik. Selain keupayaan storan, seni bina sedemikian menarik kerana kelebihannya dalam kebolehsuaian, kebolehtafsiran dan kecekapan.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Alamat kertas: https://arxiv.org/pdf/2208.03299.pdf

Pengambilan semula atlas bagi dokumen berkaitan ialah pengumpul semula kepadatan sejagat berdasarkan seni bina dwi pengekod Contriever Apabila mengambil fail, ia mengambil semula fail berkaitan berdasarkan konteks semasa. Dokumen yang diambil bersama-sama dengan konteks semasa diproses oleh model jujukan ke jujukan yang menggunakan seni bina Fusion-in-Decoder untuk menjana output yang sepadan.

Pengarang mengkaji kesan teknik yang berbeza pada prestasi latihan Atlas pada set data berskala kecil pada pelbagai tugas hiliran, termasuk menjawab soalan dan semakan fakta. Kajian mendapati bahawa komponen pra-latihan bersama adalah penting untuk prestasi sampel kecil, dan pengarang menilai banyak tugas dan skim pra-latihan sedia ada dan novel mempunyai prestasi hiliran yang kukuh dalam kedua-dua sampel kecil dan persekitaran yang kaya dengan sumber.

Dengan hanya 11B parameter, Atlas mencapai ketepatan 42.4% pada NaturalQuestions (NQ) menggunakan 64 contoh latihan, yang lebih tinggi daripada model parameter 540B PaLM (39.6%) daripada hampir 3 mata peratusan , mencapai ketepatan 64.0% dalam tetapan set data penuh (Penuh).

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Yann LeCun berkata: Atlas ialah model bahasa yang tidak terlalu besar (parameter 11B), dalam Soal Jawab dan Facts Beats "lelaki besar" dalam pengesahan. Perbezaan utama Atlas ialah ia boleh mendapatkan semula fakta daripada korpus.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Ikhtisar Kaedah

Atlas mengikut rangka kerja teks-ke-teks. Ini bermakna rangka kerja umum semua tugas ialah: sistem mengambil pertanyaan teks sebagai input dan menjana output teks. Sebagai contoh, dalam kes tugasan soal jawab, pertanyaan sepadan dengan soalan dan model perlu menjana jawapan. Dalam kes tugas pengelasan, pertanyaan sepadan dengan input teks dan model menjana label kelas, iaitu, perkataan yang sepadan dengan label. Penanda aras KILT dalam Rajah 2 memberikan lebih banyak contoh tugas hiliran. Banyak tugas pemprosesan bahasa semula jadi memerlukan pengetahuan, dan Atlas bertujuan untuk meningkatkan model teks-ke-teks standard dengan perolehan semula, kerana pengambilan mungkin penting kepada keupayaan model untuk belajar dalam senario sampel kecil.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Seni Bina

Model Atlas adalah berdasarkan dua sub-model: retriever dan bahasa model. Semasa menjalankan tugas, daripada menjawab soalan hingga menjana artikel Wikipedia, model itu mula-mula mendapatkan semula dokumen yang paling relevan daripada korpus teks besar melalui retriever. Dokumen-dokumen ini, bersama-sama dengan pertanyaan, kemudiannya diberikan sebagai input kepada model bahasa, yang menjana output. Kedua-dua retriever dan model bahasa adalah berdasarkan rangkaian pengubah yang telah terlatih, yang diterangkan secara terperinci di bawah.

Pendapatan semula: Modul retriever Atlas adalah berdasarkan Contriever, teknologi perolehan maklumat berdasarkan pembenaman ketumpatan berterusan. Contriever menggunakan seni bina dwi pengekod di mana pertanyaan dan dokumen dibenamkan secara bebas oleh pengekod pengubah. Pengumpulan purata digunakan pada output lapisan terakhir untuk mendapatkan perwakilan vektor bagi setiap pertanyaan atau dokumen. Kemudian dengan mengira hasil darab titik bagi pembenaman bersama antara pertanyaan dan setiap dokumen, skor persamaan mereka diperolehi. Model Contriever dilatih terlebih dahulu menggunakan kehilangan kontrastif MoCo dan hanya menggunakan data yang tidak diselia. Salah satu kelebihan pengambilan kepadatan ialah kedua-dua pengekod pertanyaan dan dokumen boleh dilatih tanpa anotasi dokumen menggunakan teknik standard seperti keturunan kecerunan dan penyulingan.

Model bahasa: Untuk model bahasa, Atlas bergantung pada seni bina jujukan-ke-jujukan T5. Model ini juga bergantung pada pengubahsuaian Fusion-in-Decoder bagi model jujukan-ke-jujukan dan memproses setiap dokumen secara bebas dalam pengekod. Model kemudian menggabungkan output pengekod yang sepadan dengan dokumen yang berbeza dan melakukan perhatian silang pada satu urutan dalam penyahkod. Model menghubungkan pertanyaan kepada setiap dokumen dalam pengekod. Satu lagi cara untuk memproses dokumen yang diperoleh semula dalam model bahasa ialah menggabungkan pertanyaan dan semua dokumen dan menggunakan urutan panjang ini sebagai input kepada model. Tetapi kaedah ini kurang berskala, iaitu, ia tidak akan berskala apabila bilangan dokumen bertambah, kerana mekanisme perhatian kendiri dalam pengekod akan membawa kepada kerumitan masa O(n^2) (di mana n ialah bilangan dokumen).

Hasil eksperimen

Pengarang menilai Atlas pada dua soalan domain terbuka yang menjawab tanda aras, NaturalQuestions dan TriviaQA. Dan kami menggunakan set data sampel kecil masing-masing sebanyak 64 sampel dan set latihan lengkap untuk dibandingkan dengan kerja sebelumnya. Perbandingan terperinci ditunjukkan dalam jadual di bawah.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Berprestasi terbaik dalam Soal Jawab 64 syot dengan NaturalQuestions dan TriviaQA. Khususnya ia mengatasi model yang lebih besar (PaLM) atau model yang memerlukan lebih banyak pengiraan latihan (Chinchilla). Atlas juga boleh mencapai hasil yang optimum apabila menggunakan set latihan penuh, seperti meningkatkan ketepatan NaturalQuestions daripada 55.9% kepada 60.4%. Keputusan ini diperoleh di bawah tetapan lalai Atlas, menggunakan indeks yang terdiri daripada CCNet dan korpus Wikipedia Disember 2021. Jadual di bawah menunjukkan keputusan ujian pada set data semakan fakta FEVER.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Atlas Dalam kes 64 pukulan, sampel latihan diambil daripada set latihan penuh. Atlas mencapai ketepatan 64.3%. Dalam kes 15 pukulan, 5 sampel diambil secara seragam daripada setiap kelas Berbanding dengan keputusan Gopher, ketepatan Atlas ialah 56.2%, iaitu 5.1 mata peratusan lebih tinggi daripada Gopher. Model Atlas telah diperhalusi pada set latihan penuh dan mencapai ketepatan 78%, iaitu 1.5% lebih rendah daripada ProoFVer. ProoFVer menggunakan seni bina khusus untuk melatih retriever dengan anotasi peringkat ayat dan disediakan oleh korpus Wikipedia yang diterbitkan dengan FEVER, manakala Atlas mendapatkan semula daripada CCNet dan pembuangan Wikipedia Disember 2021. Apabila diberi indeks yang terdiri daripada korpus Wikipedia FEVER, Atlas mencapai tahap optimum 80.1%.

Untuk mengesahkan prestasi Atlas, Atlas telah dinilai pada KILT, penanda aras yang terdiri daripada beberapa tugas berintensif pengetahuan yang berbeza. Jadual di bawah menunjukkan keputusan pada set ujian.

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Atlas 64-shot jauh mengatasi prestasi algoritma rawak dalam eksperimen, malah memadankan beberapa algoritma yang diperhalusi pada papan pendahulu. model adalah setanding. Contohnya, pada FEVER, Atlas 64-shot hanya 2-2.5 mata di belakang Sphere, SEAL dan Re2G, manakala pada zero-shot RE ia mengatasi Sphere dan SEAL. Pada set data penuh, prestasi Atlas berada dalam lingkungan 3% daripada model terbaik dalam 3 set data, tetapi ini adalah yang terbaik dalam 5 set data yang selebihnya.

Atas ialah kandungan terperinci Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

$Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24)$ Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

See all articles

Bilangan parameter ialah 1/50, Meta mengeluarkan 11 bilion model parameter, mengalahkan Google PaLM

Ikhtisar Kaedah

Seni Bina

Hasil eksperimen​

Alat AI Hot

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

Artikel Panas

Alat panas

Notepad++7.3.1

SublimeText3 versi Cina

Hantar Studio 13.0.1

Dreamweaver CS6

SublimeText3 versi Mac

Topik panas

Hasil eksperimen