


'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!
Pada Mei tahun ini, MetaAI secara rasmi mengumumkan keluaran model ultra-besar OPT-175B berdasarkan 175 bilion parameter, yang juga terbuka kepada semua komuniti secara percuma.
Pada 22 Disember, versi terkini model, OPT-IML (Open Pre-trained Transformer), telah dilancarkan secara rasmi Meta berkata ia “memperhalusi 2,000 tugasan bahasa, termasuk 1,750 Billion Parameter" juga akan tersedia secara percuma untuk tujuan penyelidikan bukan komersial.
Mari kita lihat prestasi OPT-IML yang dikemas kini ini.
Kali ini OPT-IML mencipta dua saiz model, 30B dan 175B.
Berbanding dengan model OPT lama, OPT-IML mengatasi OPT secara purata dalam 14 tugas penilaian NLP standard.
Dua saiz model adalah 7%~ lebih baik pada tugasan pembelajaran sifar dan masing-masing 4%~ dan 0.4%~ pada tugasan 32 syot.
Dalam kajian ini, penyelidik menerangkan cara peningkatan model dan saiz penanda aras mempengaruhi kesan keputusan penalaan arahan terhadap prestasi tugasan hiliran.
Untuk melakukan ini, mereka membangunkan OPT-IML Bench, penanda aras meta-pembelajaran (IML) pengajaran yang agak besar yang mengandungi 2000 tugasan NLP berdasarkan lapan Penanda Aras sedia ada dibahagikan kepada kategori tugasan.
Untuk melatih OPT-IML 30B dan 175B, para penyelidik mula-mula mencadangkan keputusan penalaan arahan yang digunakan untuk OPT-30B dari perspektif rangka kerja yang diperolehi ini pandangan.
Pada empat penanda aras penilaian (PromptSource, FLAN, Super-NaturalInstructions dan UnifiedSKG) dengan sasaran dan format input yang berbeza, OPT-IML menunjukkan ketiga-tiga kemahiran Generalisasi.
Bukan sahaja prestasi OPT yang ketara merentas semua penanda aras, ia juga mengatasi prestasi model sedia ada yang dioptimumkan untuk penanda aras khusus ini dengan cara yang sangat kompetitif.
Selain itu, OPT-IML telah menjadi sumber terbuka, dan pautan Github juga dipaparkan di bawah~
Pautan Github: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML
Jom ketahui lebih lanjut mengenainya melalui kertas OPT-IML.
Pautan kertas: https://github.com/facebookresearch/metaseq/blob/main/projects/OPT-IML/optimal_paper_v1 .pdf
Kaedah Penyelidikan
Penalaan halus arahan model bahasa besar telah menjadi kaedah yang berkesan untuk meningkatkan keupayaan generalisasi sifar dan beberapa pukulan mereka . Dalam kajian ini, penyelidik Meta membuat tiga tambahan penting kepada penalaan halus arahan.
Mula-mula, mereka menyusun penanda aras penalaan halus arahan berskala besar yang mengandungi 2,000 tugasan NLP daripada lapan koleksi set data, dikategorikan mengikut jenis tugasan.
Penyelidik secara selektif membina pembahagian penilaian pada penanda aras ini untuk menguji tiga jenis keupayaan generalisasi model yang berbeza:
Termasuk tugasan daripada kategori yang dipegang sepenuhnya, tugasan yang dipegang daripada jenis yang dilihat dan contoh yang ditahan daripada contoh tugas yang dilihat daripada tugasan yang dilihat).
Arahkan penalaan halus
Perhalusi model, Untuk menjadikannya konsisten dengan arahan berikut ialah salah satu arahan penyelidikan semasa dalam pembelajaran mesin.
Terdapat dua kaedah untuk perintah penalaan halus. Satu memfokuskan pada model penalaan halus untuk pelbagai tugas menggunakan arahan dan maklum balas beranotasi manusia, memfokuskan pada menambahkan arahan melalui anotasi atau secara automatik pada penanda aras dan set data yang boleh diakses secara umum.
Dalam kajian ini, ahli Meta AI menumpukan pada teknik kedua dan menyusun beberapa set data boleh diakses secara umum yang mengandungi kaedah untuk menambah baik OPT.
Semasa penyelidikan, ahli Meta mencadangkan kaedah penskalaan yang sama menggunakan 1836 tugasan daripada empat penanda aras. Akhir sekali, semasa menala keseluruhan ujian untuk menolak had prestasi penanda aras luaran yang mencabar seperti MMLU dan Big-Bench Hard (BBH), para penyelidik menerangkan berat pelbagai strategi penalaan arahan yang mungkin memberi kesan kepada prestasi hiliran.
Pembelajaran berbilang tugas
Pembelajaran berbilang tugas ialah perwakilan penalaan halus berasaskan arahan (MTL).
MTL ialah paradigma popular yang boleh meningkatkan prestasi generalisasi tugas apabila digabungkan dengan fungsi serupa yang berkongsi parameter atau perwakilan yang setanding.
Dalam beberapa tahun kebelakangan ini, MTL telah digunakan pada pelbagai senario NLP, terutamanya memfokuskan pada peningkatan prestasi tugas latihan atau domain baharu dengan memanfaatkan isyarat daripada aktiviti yang berkaitan.
Sebaliknya, penalaan halus berasaskan arahan membantu kami meningkatkan prestasi generalisasi kepada masalah yang tidak pernah dilihat sebelum ini. Ia melakukan ini dengan mengarahkan untuk menggabungkan semua tugasan ke dalam konsep dan melatihnya bersama-sama dengan memberikan berat model pada semua tugasan.
Apakah itu OPT?
Model bahasa berskala besar, sistem pemprosesan bahasa semula jadi dengan lebih 100 bilion parameter, telah mengubah penyelidikan NLP dan AI dalam beberapa tahun kebelakangan ini.
Dilatih dalam pelbagai jenis teks yang pelbagai, model ini telah menunjukkan kebolehan baharu yang mengejutkan untuk menjana teks kreatif, menyelesaikan masalah asas matematik, menjawab soalan pemahaman bacaan dan banyak lagi.
Walaupun dalam sesetengah kes orang ramai boleh berinteraksi dengan model ini melalui API berbayar, akses penyelidikan penuh masih terhad kepada segelintir makmal yang mempunyai sumber yang baik.
Akses terhad ini mengehadkan keupayaan penyelidik untuk memahami cara dan sebab model bahasa besar ini berfungsi, menghalang kemajuan dalam meningkatkan keteguhannya dan mengurangkan isu yang diketahui seperti berat sebelah .
Atas komitmennya terhadap sains terbuka, Meta AI mengeluarkan Open Pretrained Transformer (OPT-175B) pada Mei tahun ini, model dengan 175 bilion parameter, dalam data awam Ia dilatih pada set. Sebab untuk berkongsi model ini adalah Meta AI berharap lebih banyak komuniti akan mengambil bahagian dalam memahami teknologi asas tentang model besar.
Ringkasnya, Meta membuka akses kepada model bahasa berskala besar yang digunakan untuk penyelidikan kecerdasan buatan kepada orang ramai, dengan itu mendemokrasikan kecerdasan buatan untuk penyelidikan model berskala besar.
Perbandingan dengan versi lama
Menurut versi IML yang kini dikeluarkan oleh Meta, ia telah diperhalusi dan berprestasi lebih baik pada tugasan bahasa semula jadi berbanding versi lama daripada OPT.
Tugas bahasa biasa termasuk menjawab soalan, meringkaskan teks dan menterjemah.
Untuk penalaan halus, penyelidik menggunakan kira-kira 2,000 tugas bahasa semula jadi. Tugasan dibahagikan kepada lapan penanda aras NLP (OPT-IML Bench), yang turut disediakan oleh penyelidik.
Secara purata, mengambil model 30B dan 175B sebagai contoh, OPT-IML meningkatkan ketepatan pembelajaran sifar pukulan sebanyak kira-kira 6-7% berbanding OPT. Dalam 32 zaman, model dengan 30 bilion parameter menunjukkan peningkatan yang ketara dalam ketepatan, dan model dengan 175 bilion parameter menunjukkan sedikit peningkatan.
Selepas perbandingan, pasukan Meta mendapati bahawa prestasi OPT-IML adalah lebih baik daripada OPT pada semua penanda aras, dan dari segi ketepatan pembelajaran sifar pukulan dan beberapa pukulan , ia lebih baik daripada yang lain Model berdasarkan penalaan halus arahan lebih berdaya saing.
Atas ialah kandungan terperinci 'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

1. Gunakan kekunci pintasan win+x untuk membuka menu dan pilih [Command Prompt (Administrator) (A)], seperti yang ditunjukkan di bawah: 2. Selepas memasuki antara muka command prompt, masukkan arahan [ipconfig/flushdns] dan tekan Enter , seperti yang ditunjukkan dalam rajah di bawah: 3. Kemudian masukkan arahan [netshwinsockresetcatalog] dan tekan Enter, seperti yang ditunjukkan dalam rajah di bawah: 4. Akhir sekali masukkan arahan [netshintipreset] dan tekan Enter, mulakan semula komputer dan anda boleh mengakses Internet , seperti yang ditunjukkan dalam rajah di bawah:

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pada 21 Jun, Persidangan Pembangun Huawei 2024 (HDC2024) berkumpul semula di Tasik Songshan, Dongguan. Pada persidangan ini, perkara yang paling menarik perhatian ialah HarmonyOSNEXT secara rasminya melancarkan Beta untuk pembangun dan pengguna perintis, dan secara komprehensif menunjukkan tiga ciri inovatif HarmonyOSNEXT yang "menghancurkan raja" dalam semua senario, perisikan asli dan keselamatan asli. Perisikan asli HarmonyOSNEXT: Membuka era AI baharu Selepas meninggalkan rangka kerja Android, HarmonyOSNEXT telah menjadi sistem pengendalian yang benar-benar bebas daripada Android dan iOS, yang boleh dipanggil kelahiran semula yang tidak pernah berlaku sebelum ini. Di antara banyak ciri baharunya, kecerdasan asli tidak diragukan lagi merupakan ciri baharu yang terbaik boleh membawa perasaan intuitif pengguna dan mengalami peningkatan.
