Jadual Kandungan
Kaedah Penyelidikan
Arahkan penalaan halus" >Arahkan penalaan halus
Pembelajaran berbilang tugas " >Pembelajaran berbilang tugas
Apakah itu OPT?
Perbandingan dengan versi lama
Rumah Peranti teknologi AI 'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Apr 11, 2023 pm 10:31 PM
naik taraf Model

Pada Mei tahun ini, MetaAI secara rasmi mengumumkan keluaran model ultra-besar OPT-175B berdasarkan 175 bilion parameter, yang juga terbuka kepada semua komuniti secara percuma.

Pada 22 Disember, versi terkini model, OPT-IML (Open Pre-trained Transformer), telah dilancarkan secara rasmi Meta berkata ia “memperhalusi 2,000 tugasan bahasa, termasuk 1,750 Billion Parameter" juga akan tersedia secara percuma untuk tujuan penyelidikan bukan komersial.

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Mari kita lihat prestasi OPT-IML yang dikemas kini ini.

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Kali ini OPT-IML mencipta dua saiz model, 30B dan 175B.

Berbanding dengan model OPT lama, OPT-IML mengatasi OPT secara purata dalam 14 tugas penilaian NLP standard.

Dua saiz model adalah 7%~ lebih baik pada tugasan pembelajaran sifar dan masing-masing 4%~ dan 0.4%~ pada tugasan 32 syot.

Dalam kajian ini, penyelidik menerangkan cara peningkatan model dan saiz penanda aras mempengaruhi kesan keputusan penalaan arahan terhadap prestasi tugasan hiliran.

Untuk melakukan ini, mereka membangunkan OPT-IML Bench, penanda aras meta-pembelajaran (IML) pengajaran yang agak besar yang mengandungi 2000 tugasan NLP berdasarkan lapan Penanda Aras sedia ada dibahagikan kepada kategori tugasan.

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Untuk melatih OPT-IML 30B dan 175B, para penyelidik mula-mula mencadangkan keputusan penalaan arahan yang digunakan untuk OPT-30B dari perspektif rangka kerja yang diperolehi ini pandangan.

Pada empat penanda aras penilaian (PromptSource, FLAN, Super-NaturalInstructions dan UnifiedSKG) dengan sasaran dan format input yang berbeza, OPT-IML menunjukkan ketiga-tiga kemahiran Generalisasi.

Bukan sahaja prestasi OPT yang ketara merentas semua penanda aras, ia juga mengatasi prestasi model sedia ada yang dioptimumkan untuk penanda aras khusus ini dengan cara yang sangat kompetitif.

Selain itu, OPT-IML telah menjadi sumber terbuka, dan pautan Github juga dipaparkan di bawah~

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Pautan Github: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML

Jom ketahui lebih lanjut mengenainya melalui kertas OPT-IML.

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Pautan kertas: https://github.com/facebookresearch/metaseq/blob/main/projects/OPT-IML/optimal_paper_v1 .pdf

Kaedah Penyelidikan

Penalaan halus arahan model bahasa besar telah menjadi kaedah yang berkesan untuk meningkatkan keupayaan generalisasi sifar dan beberapa pukulan mereka . Dalam kajian ini, penyelidik Meta membuat tiga tambahan penting kepada penalaan halus arahan.

Mula-mula, mereka menyusun penanda aras penalaan halus arahan berskala besar yang mengandungi 2,000 tugasan NLP daripada lapan koleksi set data, dikategorikan mengikut jenis tugasan.

Penyelidik secara selektif membina pembahagian penilaian pada penanda aras ini untuk menguji tiga jenis keupayaan generalisasi model yang berbeza:

Termasuk tugasan daripada kategori yang dipegang sepenuhnya, tugasan yang dipegang daripada jenis yang dilihat dan contoh yang ditahan daripada contoh tugas yang dilihat daripada tugasan yang dilihat).

Arahkan penalaan halus

Perhalusi model, Untuk menjadikannya konsisten dengan arahan berikut ialah salah satu arahan penyelidikan semasa dalam pembelajaran mesin.

Terdapat dua kaedah untuk perintah penalaan halus. Satu memfokuskan pada model penalaan halus untuk pelbagai tugas menggunakan arahan dan maklum balas beranotasi manusia, memfokuskan pada menambahkan arahan melalui anotasi atau secara automatik pada penanda aras dan set data yang boleh diakses secara umum.

Dalam kajian ini, ahli Meta AI menumpukan pada teknik kedua dan menyusun beberapa set data boleh diakses secara umum yang mengandungi kaedah untuk menambah baik OPT.

Semasa penyelidikan, ahli Meta mencadangkan kaedah penskalaan yang sama menggunakan 1836 tugasan daripada empat penanda aras. Akhir sekali, semasa menala keseluruhan ujian untuk menolak had prestasi penanda aras luaran yang mencabar seperti MMLU dan Big-Bench Hard (BBH), para penyelidik menerangkan berat pelbagai strategi penalaan arahan yang mungkin memberi kesan kepada prestasi hiliran.

Pembelajaran berbilang tugas

Pembelajaran berbilang tugas ialah perwakilan penalaan halus berasaskan arahan (MTL).

MTL ialah paradigma popular yang boleh meningkatkan prestasi generalisasi tugas apabila digabungkan dengan fungsi serupa yang berkongsi parameter atau perwakilan yang setanding.

Dalam beberapa tahun kebelakangan ini, MTL telah digunakan pada pelbagai senario NLP, terutamanya memfokuskan pada peningkatan prestasi tugas latihan atau domain baharu dengan memanfaatkan isyarat daripada aktiviti yang berkaitan.

Sebaliknya, penalaan halus berasaskan arahan membantu kami meningkatkan prestasi generalisasi kepada masalah yang tidak pernah dilihat sebelum ini. Ia melakukan ini dengan mengarahkan untuk menggabungkan semua tugasan ke dalam konsep dan melatihnya bersama-sama dengan memberikan berat model pada semua tugasan.

Apakah itu OPT?

Model bahasa berskala besar, sistem pemprosesan bahasa semula jadi dengan lebih 100 bilion parameter, telah mengubah penyelidikan NLP dan AI dalam beberapa tahun kebelakangan ini.

Dilatih dalam pelbagai jenis teks yang pelbagai, model ini telah menunjukkan kebolehan baharu yang mengejutkan untuk menjana teks kreatif, menyelesaikan masalah asas matematik, menjawab soalan pemahaman bacaan dan banyak lagi.

Walaupun dalam sesetengah kes orang ramai boleh berinteraksi dengan model ini melalui API berbayar, akses penyelidikan penuh masih terhad kepada segelintir makmal yang mempunyai sumber yang baik.

Akses terhad ini mengehadkan keupayaan penyelidik untuk memahami cara dan sebab model bahasa besar ini berfungsi, menghalang kemajuan dalam meningkatkan keteguhannya dan mengurangkan isu yang diketahui seperti berat sebelah .

Atas komitmennya terhadap sains terbuka, Meta AI mengeluarkan Open Pretrained Transformer (OPT-175B) pada Mei tahun ini, model dengan 175 bilion parameter, dalam data awam Ia dilatih pada set. Sebab untuk berkongsi model ini adalah Meta AI berharap lebih banyak komuniti akan mengambil bahagian dalam memahami teknologi asas tentang model besar.

Ringkasnya, Meta membuka akses kepada model bahasa berskala besar yang digunakan untuk penyelidikan kecerdasan buatan kepada orang ramai, dengan itu mendemokrasikan kecerdasan buatan untuk penyelidikan model berskala besar.

Perbandingan dengan versi lama

Menurut versi IML yang kini dikeluarkan oleh Meta, ia telah diperhalusi dan berprestasi lebih baik pada tugasan bahasa semula jadi berbanding versi lama daripada OPT.

Tugas bahasa biasa termasuk menjawab soalan, meringkaskan teks dan menterjemah.

Untuk penalaan halus, penyelidik menggunakan kira-kira 2,000 tugas bahasa semula jadi. Tugasan dibahagikan kepada lapan penanda aras NLP (OPT-IML Bench), yang turut disediakan oleh penyelidik.

Secara purata, mengambil model 30B dan 175B sebagai contoh, OPT-IML meningkatkan ketepatan pembelajaran sifar pukulan sebanyak kira-kira 6-7% berbanding OPT. Dalam 32 zaman, model dengan 30 bilion parameter menunjukkan peningkatan yang ketara dalam ketepatan, dan model dengan 175 bilion parameter menunjukkan sedikit peningkatan.

Versi dinaik taraf OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!

Selepas perbandingan, pasukan Meta mendapati bahawa prestasi OPT-IML adalah lebih baik daripada OPT pada semua penanda aras, dan dari segi ketepatan pembelajaran sifar pukulan dan beberapa pukulan , ia lebih baik daripada yang lain Model berdasarkan penalaan halus arahan lebih berdaya saing.

Atas ialah kandungan terperinci 'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Tutorial cara menyelesaikan masalah tidak dapat mengakses Internet selepas menaik taraf sistem win10 Tutorial cara menyelesaikan masalah tidak dapat mengakses Internet selepas menaik taraf sistem win10 Mar 27, 2024 pm 02:26 PM

1. Gunakan kekunci pintasan win+x untuk membuka menu dan pilih [Command Prompt (Administrator) (A)], seperti yang ditunjukkan di bawah: 2. Selepas memasuki antara muka command prompt, masukkan arahan [ipconfig/flushdns] dan tekan Enter , seperti yang ditunjukkan dalam rajah di bawah: 3. Kemudian masukkan arahan [netshwinsockresetcatalog] dan tekan Enter, seperti yang ditunjukkan dalam rajah di bawah: 4. Akhir sekali masukkan arahan [netshintipreset] dan tekan Enter, mulakan semula komputer dan anda boleh mengakses Internet , seperti yang ditunjukkan dalam rajah di bawah:

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Xiaoyi dinaik taraf kepada ejen pintar! HarmonyOS NEXT Perisikan asli Hongmeng membuka era AI baharu Xiaoyi dinaik taraf kepada ejen pintar! HarmonyOS NEXT Perisikan asli Hongmeng membuka era AI baharu Jun 22, 2024 am 01:56 AM

Pada 21 Jun, Persidangan Pembangun Huawei 2024 (HDC2024) berkumpul semula di Tasik Songshan, Dongguan. Pada persidangan ini, perkara yang paling menarik perhatian ialah HarmonyOSNEXT secara rasminya melancarkan Beta untuk pembangun dan pengguna perintis, dan secara komprehensif menunjukkan tiga ciri inovatif HarmonyOSNEXT yang "menghancurkan raja" dalam semua senario, perisikan asli dan keselamatan asli. Perisikan asli HarmonyOSNEXT: Membuka era AI baharu Selepas meninggalkan rangka kerja Android, HarmonyOSNEXT telah menjadi sistem pengendalian yang benar-benar bebas daripada Android dan iOS, yang boleh dipanggil kelahiran semula yang tidak pernah berlaku sebelum ini. Di antara banyak ciri baharunya, kecerdasan asli tidak diragukan lagi merupakan ciri baharu yang terbaik boleh membawa perasaan intuitif pengguna dan mengalami peningkatan.

See all articles