Pada Mei tahun ini, MetaAI secara rasmi mengumumkan keluaran model ultra-besar OPT-175B berdasarkan 175 bilion parameter, yang juga terbuka kepada semua komuniti secara percuma.
Pada 22 Disember, versi terkini model, OPT-IML (Open Pre-trained Transformer), telah dilancarkan secara rasmi Meta berkata ia “memperhalusi 2,000 tugasan bahasa, termasuk 1,750 Billion Parameter" juga akan tersedia secara percuma untuk tujuan penyelidikan bukan komersial.
Mari kita lihat prestasi OPT-IML yang dikemas kini ini.
Kali ini OPT-IML mencipta dua saiz model, 30B dan 175B.
Berbanding dengan model OPT lama, OPT-IML mengatasi OPT secara purata dalam 14 tugas penilaian NLP standard.
Dua saiz model adalah 7%~ lebih baik pada tugasan pembelajaran sifar dan masing-masing 4%~ dan 0.4%~ pada tugasan 32 syot.
Dalam kajian ini, penyelidik menerangkan cara peningkatan model dan saiz penanda aras mempengaruhi kesan keputusan penalaan arahan terhadap prestasi tugasan hiliran.
Untuk melakukan ini, mereka membangunkan OPT-IML Bench, penanda aras meta-pembelajaran (IML) pengajaran yang agak besar yang mengandungi 2000 tugasan NLP berdasarkan lapan Penanda Aras sedia ada dibahagikan kepada kategori tugasan.
Untuk melatih OPT-IML 30B dan 175B, para penyelidik mula-mula mencadangkan keputusan penalaan arahan yang digunakan untuk OPT-30B dari perspektif rangka kerja yang diperolehi ini pandangan.
Pada empat penanda aras penilaian (PromptSource, FLAN, Super-NaturalInstructions dan UnifiedSKG) dengan sasaran dan format input yang berbeza, OPT-IML menunjukkan ketiga-tiga kemahiran Generalisasi.
Bukan sahaja prestasi OPT yang ketara merentas semua penanda aras, ia juga mengatasi prestasi model sedia ada yang dioptimumkan untuk penanda aras khusus ini dengan cara yang sangat kompetitif.
Selain itu, OPT-IML telah menjadi sumber terbuka, dan pautan Github juga dipaparkan di bawah~
Pautan Github: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML
Jom ketahui lebih lanjut mengenainya melalui kertas OPT-IML.
Pautan kertas: https://github.com/facebookresearch/metaseq/blob/main/projects/OPT-IML/optimal_paper_v1 .pdf
Penalaan halus arahan model bahasa besar telah menjadi kaedah yang berkesan untuk meningkatkan keupayaan generalisasi sifar dan beberapa pukulan mereka . Dalam kajian ini, penyelidik Meta membuat tiga tambahan penting kepada penalaan halus arahan.
Mula-mula, mereka menyusun penanda aras penalaan halus arahan berskala besar yang mengandungi 2,000 tugasan NLP daripada lapan koleksi set data, dikategorikan mengikut jenis tugasan.
Penyelidik secara selektif membina pembahagian penilaian pada penanda aras ini untuk menguji tiga jenis keupayaan generalisasi model yang berbeza:
Termasuk tugasan daripada kategori yang dipegang sepenuhnya, tugasan yang dipegang daripada jenis yang dilihat dan contoh yang ditahan daripada contoh tugas yang dilihat daripada tugasan yang dilihat).
Perhalusi model, Untuk menjadikannya konsisten dengan arahan berikut ialah salah satu arahan penyelidikan semasa dalam pembelajaran mesin.
Terdapat dua kaedah untuk perintah penalaan halus. Satu memfokuskan pada model penalaan halus untuk pelbagai tugas menggunakan arahan dan maklum balas beranotasi manusia, memfokuskan pada menambahkan arahan melalui anotasi atau secara automatik pada penanda aras dan set data yang boleh diakses secara umum.
Dalam kajian ini, ahli Meta AI menumpukan pada teknik kedua dan menyusun beberapa set data boleh diakses secara umum yang mengandungi kaedah untuk menambah baik OPT.
Semasa penyelidikan, ahli Meta mencadangkan kaedah penskalaan yang sama menggunakan 1836 tugasan daripada empat penanda aras. Akhir sekali, semasa menala keseluruhan ujian untuk menolak had prestasi penanda aras luaran yang mencabar seperti MMLU dan Big-Bench Hard (BBH), para penyelidik menerangkan berat pelbagai strategi penalaan arahan yang mungkin memberi kesan kepada prestasi hiliran.
Pembelajaran berbilang tugas ialah perwakilan penalaan halus berasaskan arahan (MTL).
MTL ialah paradigma popular yang boleh meningkatkan prestasi generalisasi tugas apabila digabungkan dengan fungsi serupa yang berkongsi parameter atau perwakilan yang setanding.
Dalam beberapa tahun kebelakangan ini, MTL telah digunakan pada pelbagai senario NLP, terutamanya memfokuskan pada peningkatan prestasi tugas latihan atau domain baharu dengan memanfaatkan isyarat daripada aktiviti yang berkaitan.
Sebaliknya, penalaan halus berasaskan arahan membantu kami meningkatkan prestasi generalisasi kepada masalah yang tidak pernah dilihat sebelum ini. Ia melakukan ini dengan mengarahkan untuk menggabungkan semua tugasan ke dalam konsep dan melatihnya bersama-sama dengan memberikan berat model pada semua tugasan.
Model bahasa berskala besar, sistem pemprosesan bahasa semula jadi dengan lebih 100 bilion parameter, telah mengubah penyelidikan NLP dan AI dalam beberapa tahun kebelakangan ini.
Dilatih dalam pelbagai jenis teks yang pelbagai, model ini telah menunjukkan kebolehan baharu yang mengejutkan untuk menjana teks kreatif, menyelesaikan masalah asas matematik, menjawab soalan pemahaman bacaan dan banyak lagi.
Walaupun dalam sesetengah kes orang ramai boleh berinteraksi dengan model ini melalui API berbayar, akses penyelidikan penuh masih terhad kepada segelintir makmal yang mempunyai sumber yang baik.
Akses terhad ini mengehadkan keupayaan penyelidik untuk memahami cara dan sebab model bahasa besar ini berfungsi, menghalang kemajuan dalam meningkatkan keteguhannya dan mengurangkan isu yang diketahui seperti berat sebelah .
Atas komitmennya terhadap sains terbuka, Meta AI mengeluarkan Open Pretrained Transformer (OPT-175B) pada Mei tahun ini, model dengan 175 bilion parameter, dalam data awam Ia dilatih pada set. Sebab untuk berkongsi model ini adalah Meta AI berharap lebih banyak komuniti akan mengambil bahagian dalam memahami teknologi asas tentang model besar.
Ringkasnya, Meta membuka akses kepada model bahasa berskala besar yang digunakan untuk penyelidikan kecerdasan buatan kepada orang ramai, dengan itu mendemokrasikan kecerdasan buatan untuk penyelidikan model berskala besar.
Menurut versi IML yang kini dikeluarkan oleh Meta, ia telah diperhalusi dan berprestasi lebih baik pada tugasan bahasa semula jadi berbanding versi lama daripada OPT.
Tugas bahasa biasa termasuk menjawab soalan, meringkaskan teks dan menterjemah.
Untuk penalaan halus, penyelidik menggunakan kira-kira 2,000 tugas bahasa semula jadi. Tugasan dibahagikan kepada lapan penanda aras NLP (OPT-IML Bench), yang turut disediakan oleh penyelidik.
Secara purata, mengambil model 30B dan 175B sebagai contoh, OPT-IML meningkatkan ketepatan pembelajaran sifar pukulan sebanyak kira-kira 6-7% berbanding OPT. Dalam 32 zaman, model dengan 30 bilion parameter menunjukkan peningkatan yang ketara dalam ketepatan, dan model dengan 175 bilion parameter menunjukkan sedikit peningkatan.
Selepas perbandingan, pasukan Meta mendapati bahawa prestasi OPT-IML adalah lebih baik daripada OPT pada semua penanda aras, dan dari segi ketepatan pembelajaran sifar pukulan dan beberapa pukulan , ia lebih baik daripada yang lain Model berdasarkan penalaan halus arahan lebih berdaya saing.
Atas ialah kandungan terperinci 'Versi dinaik taraf' OPT-IML, model besar Meta dengan ratusan bilion parameter, ada di sini, dan model serta kod lengkap dikeluarkan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!