Ulasan Transformers: Daripada BERT kepada GPT4-AI-php.cn

Kecerdasan buatan telah menjadi salah satu topik yang paling banyak diperkatakan sejak beberapa tahun kebelakangan ini, dan perkhidmatan yang dahulunya dianggap sebagai fiksyen sains semata-mata kini menjadi kenyataan berkat pembangunan rangkaian saraf. Daripada ejen perbualan kepada penjanaan kandungan media, kecerdasan buatan mengubah cara kita berinteraksi dengan teknologi. Khususnya, model pembelajaran mesin (ML) telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi (NLP). Satu kejayaan utama ialah pengenalan "perhatian diri" dan seni bina Transformers untuk pemprosesan jujukan, yang membolehkan beberapa masalah utama yang sebelum ini mendominasi bidang diselesaikan.

Transformers回顾：从BERT到GPT4

Dalam artikel ini, kita akan melihat seni bina Transformers revolusioner dan bagaimana ia mengubah NLP, kami juga akan memberikan ulasan komprehensif Transformers dari BERT kepada model Alpaca, menonjolkan ciri-ciri utama setiap model dan potensi aplikasinya.

Model teks seperti Bert

Bahagian pertama ialah model berdasarkan pengekod Transformer, yang digunakan untuk pengvektoran, pengelasan, pelabelan jujukan, QA (Soal Jawab), NER (Entiti Dinamakan Pengiktirafan), dsb.

1. BERT Google / 2018

Pengekod Transformer, tokenisasi bahagian perkataan (30K perbendaharaan kata). Pembenaman input terdiri daripada tiga vektor: vektor label, vektor kedudukan boleh dilatih dan vektor serpihan (sama ada teks pertama atau teks kedua). Input model ialah pembenaman token CLS, pembenaman teks pertama dan pembenaman teks kedua.

BERT mempunyai dua tugas latihan: Pemodelan Bahasa Bertopeng (MLM) dan Prediksi Ayat Seterusnya (NSP). Dalam MLM, 15% token bertopeng, 80% digantikan dengan token MASK, 10% digantikan dengan token rawak, dan 10% kekal tidak berubah. Model meramalkan token yang betul, dan kerugian hanya dikira pada 15% token yang disekat ini. Dalam NSP, model meramalkan sama ada teks kedua mengikuti teks pertama. Ramalan dibuat pada vektor keluaran token CLS.

Untuk mempercepatkan latihan, 90% latihan pertama dilakukan pada panjang urutan 128 token, dan kemudian baki 10% masa dihabiskan untuk melatih model pada 512 token untuk mendapatkan pembenaman kedudukan yang lebih berkesan .

2. Facebook RoBERTa / 2019

Versi BERT yang dipertingkatkan, ia hanya dilatih pada MLM (kerana NSP dianggap kurang berguna), dan urutan latihan lebih panjang (512 token). Menggunakan pelekat dinamik (token yang berbeza disembunyikan apabila data yang sama diproses semula), hiperparameter latihan dipilih dengan teliti.

3. Dalam XLM asal, semua bahasa mempunyai perbendaharaan kata BPE yang dikongsi.

XLM mempunyai dua tugas latihan: MLM dan terjemahan. Terjemahan pada dasarnya adalah sama seperti MLM pada sepasang teks, tetapi teks tersebut adalah terjemahan selari antara satu sama lain, dengan topeng rawak dan bahasa pengekodan pembenaman segmen.

4. Transformer-XL Carnegie Mellon University / 2019

Model ini direka bentuk untuk memproses jujukan yang panjang dan mempunyai dua idea utama: pemprosesan gelung serpihan dan pengekodan kedudukan relatif.

Teks panjang dibahagikan kepada segmen dan diproses satu segmen pada satu masa. Output segmen sebelumnya dicache, dan apabila mengira perhatian diri dalam segmen semasa, kunci dan nilai dikira berdasarkan output segmen semasa dan segmen sebelumnya (hanya digabungkan bersama). Kecerunan juga dikira hanya dalam segmen semasa.

Kaedah ini tidak berfungsi dengan kedudukan mutlak. Oleh itu, formula berat perhatian diparameterkan semula dalam model. Vektor pengekodan kedudukan mutlak digantikan dengan matriks tetap berdasarkan sinus jarak antara kedudukan penanda dan vektor boleh dilatih yang biasa kepada semua kedudukan.

5. ERNIE Tsinghua University, Huawei / 2019

Membenamkan maklumat tentang entiti yang dinamakan dalam graf pengetahuan ke dalam BERT. Input terdiri daripada satu set token teks dan satu set token entiti (setiap token mewakili keseluruhan entiti). Token teks dikodkan oleh BERT. Di atas BERT, terdapat satu set blok pengekod K (mengambil kira kira-kira 3% daripada parameter rangkaian). Dalam blok ini:

Vektor kemas kini teg teks dan vektor asal teg entiti mula-mula dikira secara berasingan

Vektor entiti dibandingkan dengan kali pertama ia muncul dalam padanan tag teks;
diaktifkan menggunakan GeLU dan digunakan untuk mendapatkan perwakilan tersembunyi baharu bagi teg teks
Vektor baharu untuk teg teks dan entiti diperoleh daripada perwakilan tersembunyi dan diluluskan; sebagai input kepada blok pengekod Seterusnya.
Semasa pra-latihan, tiga kerugian dikira: MLM, NSP dan ramalan entiti daripada token (seperti pengekod auto menggunakan peraturan berikut:

Dalam 5% daripada kes, entiti digantikan dengan entiti yang salah, tetapi padanan itu dikekalkan dan model mesti meramalkan entiti yang betul

Dalam 15% kes, padanan dialih keluar dan model mesti hanya Ramalkan entiti berdasarkan teks;
adalah perkara biasa dalam kes lain.
Model pra-latihan boleh diperhalusi seperti model BERT biasa (dengan token CLS). Prosedur tambahan juga boleh digunakan untuk penalaan halus untuk menentukan perhubungan antara entiti dan jenisnya.

6. XLNet Carnegie Mellon University / 2019

Sebab terdapat masalah dalam proses latihan BERT:

Semasa latihan, pengiraan kerugian hanya mengira markah topeng.
Hanya penanda individu disekat, dan ramalan satu penanda yang disekat tidak akan menjejaskan ramalan penanda lain.
Tiada token MASK dalam aplikasi sebenar yang model itu secara aktif melihat semasa latihan.

XLNet adalah berdasarkan Transformer-XL, kecuali untuk tugas pemodelan bahasa (PLM) gantian, di mana ia belajar untuk meramalkan token dalam konteks pendek dan bukannya menggunakan MASK secara langsung. Ini memastikan bahawa kecerunan dikira untuk semua penanda dan menghapuskan keperluan untuk penanda topeng khas.

Token dalam konteks dikacau (contohnya: token ke-i boleh diramalkan berdasarkan token ke-2 dan ke-1+), tetapi kedudukannya masih diketahui. Ini tidak boleh dilakukan dengan pengekodan kedudukan semasa (termasuk Transformer-XL). Apabila cuba meramalkan kebarangkalian token yang diberikan sebahagian daripada konteks, model tidak seharusnya mengetahui token itu sendiri, tetapi harus mengetahui kedudukan token dalam konteks. Untuk menyelesaikan masalah ini, mereka membahagikan perhatian diri kepada dua aliran:

Pada setiap kedudukan penanda, terdapat dua vektor dan bukannya satu: vektor kandungan dan vektor pertanyaan.
Vektor kandungan mengandungi maklumat lengkap tentang token, manakala vektor pertanyaan hanya mengandungi maklumat lokasi. Kedua-dua vektor
token dikira berdasarkan vektor konteks, tetapi vektor pertanyaan dalam perhatian kendiri dikira menggunakan vektor kandungan lalu dan vektor kandungan dikira menggunakan vektor pertanyaan lalu.
vektor pertanyaan tidak menerima maklumat tentang kandungan token yang sepadan, tetapi mengetahui semua maklumat tentang konteks, manakala vektor kandungan mengandungi maklumat lengkap.

Semasa penalaan halus, jika anda mengabaikan vektor pertanyaan, model akan berfungsi seperti Transformer-XL biasa.

Dalam amalan, model memerlukan konteks mestilah cukup panjang untuk model belajar dengan betul. Ia mempelajari jumlah data yang sama seperti RoBERTa dengan hasil yang serupa, tetapi disebabkan kerumitan pelaksanaan, model itu tidak menjadi popular seperti RoBERTa.

7, ALBERT Google / 2019

Permudahkan BERT tanpa mengorbankan kualiti:

Gunakan parameter biasa dalam blok pengekod yang berbeza, dan Telah ditunjukkan bahawa berat perhatian diri boleh dikongsi, tetapi membelah berat lapisan yang bersambung sepenuhnya membawa kepada kehilangan kualiti.
Menggunakan benam input yang lebih kecil dan vektor lapisan tersembunyi yang lebih besar daripada BERT. Ini boleh dicapai dengan menggunakan matriks unjuran tambahan pada input rangkaian, yang juga mengasingkan saiz pembenaman daripada saiz perwakilan tersembunyi.
Parameter model dikurangkan sebanyak 18 kali, dan kelajuan larian meningkat sebanyak 1.7 kali.

Model ini dilatih mengenai MLM dan Prediksi Susunan Ayat (SOP).

8. DistilBERT Google / 2019

Cara lain untuk mengoptimumkan BERT ialah penyulingan:

Separuh bilangan blok pengekod
Tiga komponen kehilangan : MLM, entropi silang dengan output model guru, dan jarak kosinus antara output lapisan yang sepadan.
Model ini 40% lebih kecil dan 60% lebih pantas daripada model guru, dan mengekalkan 97% kualiti merentas pelbagai tugasan.

9 LaBSE Google / 2020

Modelisasi berbilang bahasa berdasarkan BERT. Ia dilatih mengenai MLM dan TLM (20% daripada penanda bertopeng) dan kemudian diperhalusi. Ia menyokong lebih 100 bahasa dan mengandungi 500K perbendaharaan kata bertanda.

10. ELECTRA Google, Stanford University / 2020

Mempercepatkan latihan BERT menggunakan kaedah lawan generatif:

Melatih dua model seperti BERT: penjana kecil dan diskriminator utama
penjana dilatih pada MLM dan kemudian diisi dengan token bertopeng
Diskriminator dilatih untuk meramalkan keaslian teks yang dihasilkan oleh penjana (tugas pengesanan penggantian )
Selepas latihan selesai, keluarkan penjana dan sesuaikan dengan diskriminator

Jumlah data latihan adalah sama seperti RoBERTa atau XLNet, dan modelnya lebih pantas daripada BERT, RoBERTa dan ALBERT Belajar ke tahap kualiti yang sama. Lebih lama ia dilatih, lebih baik prestasinya.

11. DeBERTa Microsoft / 2020

Model lain yang memisahkan kandungan dan kedudukan vektor penanda kepada dua vektor yang berasingan:

Vektor kedudukan berada dalam Shared antara semua lapisan, dan adalah relatif, iaitu terdapat satu untuk setiap jarak yang mungkin antara penanda.
Menambahkan dua matriks berat baharu K_pos dan Q_pos untuk mereka.
Ubah suai pengiraan berat perhatian dan ringkaskannya kepada jumlah tiga produk: Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
Seperti dalam ALBERT, gunakan matriks unjuran untuk mengurangkan pembenaman saiz Dipisahkan daripada saiz vektor perwakilan tanda tersembunyi.

Model yang serupa dengan GPT dan T5

Model berdasarkan Transformers lengkap. Rangkaian aplikasinya sangat luas: sebagai tambahan kepada tugas bahagian sebelumnya, ia termasuk ejen perbualan, terjemahan mesin, penaakulan logik dan matematik, analisis dan penjanaan kod, dan pada asasnya penjanaan teks. Model terbesar dan "paling pintar" biasanya berdasarkan seni bina penyahkod. Model sedemikian sering berprestasi baik dalam mod beberapa tangkapan dan sifar tangkapan tanpa penalaan halus.

1. GPT-2 OpenAI/2018

Penyahkod dilatih mengenai tugas LM sebab (meramalkan token seterusnya berdasarkan konteks sebelah kiri). Dari perspektif seni bina, terdapat beberapa perubahan kecil: mengalih keluar lapisan perhatian silang daripada setiap blok penyahkod dan menggunakan LayerNorm

Tokenizer yang digunakan ialah BPE peringkat bait (perbendaharaan kata 50K) dan tidak menggunakan subrentetan yang serupa seperti ("anjing", "anjing!", "anjing."). Panjang jujukan maksimum ialah 1024. Output lapisan menyimpan semua teg yang dijana sebelum ini.

2, T5 Google / 2019

Pra-latihan penuh tentang MLM (15% daripada token bertopeng), rentang bertopengkan oleh kod (, ,…) disekat. Urutan ramalan keluaran < Gunakan pengekodan kedudukan relatif: Kedudukan dikodkan oleh pembenaman yang boleh dipelajari, di mana setiap "pembenaman" hanyalah skalar yang menambah logit yang sepadan semasa mengira pemberat perhatian.

Matriks B dikongsi merentas lapisan, tetapi berbeza untuk kepala perhatian diri yang berbeza.

Setiap lapisan menganggap 128 jarak antara token dan sifar daripada yang lain, membolehkan inferens dilakukan pada urutan yang lebih panjang berbanding dengan yang dilihat semasa latihan.

Tokenisasi dilakukan menggunakan sentencepece (perbendaharaan kata 32K), dengan panjang urutan maksimum 512 semasa pra-latihan.

3. Facebook BART / 2019

Satu lagi transformer lengkap, tetapi menggunakan GeLU dan bukannya ReLU. Latih ia untuk meramal teks asal daripada teks bising (AE denoising) dengan jenis hingar berikut:

Token Masking

Alih Keluar Token

Gunakan BPE peringkat bait (saiz perbendaharaan kata 50K)
4. CTRL Salesforce / 2019

Gunakan token kod awalan (contohnya,

teks input…) untuk mengawal penyahkod yang dijana. Kod diberikan kepada teks yang sesuai semasa latihan dan kemudian digunakan semasa inferens untuk menjana teks gaya yang sepadan. Model ini dilatih pada LM sebab dan tiada kerugian tambahan digunakan. Tokenisasi yang digunakan ialah BPE dan saiz perbendaharaan kata ialah 250K.

5. GPT-3 OpenAI / 2020

Ini ialah model GPT-2 dengan seni bina Sparse Transformer dan panjang jujukan 2048 token. Adakah anda masih ingat ayat itu: Jangan tanya, tanya sahaja: GPT3

6, mT5 Google / 2020

adalah berdasarkan model T5, dengan latihan yang serupa, tetapi menggunakan berbilang bahasa data. Pengaktifan ReLU telah digantikan dengan GeGLU dan perbendaharaan kata telah dikembangkan kepada 250K token.

7. GLAM Google / 2021

Model ini secara konsepnya serupa dengan Switch Transformer, tetapi lebih memfokuskan pada bekerja dalam mod beberapa sampel dan bukannya penalaan halus. Model saiz berbeza menggunakan 32 hingga 256 lapisan pakar, K=2. Gunakan pengekodan kedudukan relatif daripada Transformer-XL. Apabila memproses token, kurang daripada 10% parameter rangkaian diaktifkan.

8. LaMDA Google / 2021

Model yang serupa dengan gpt. Model ini ialah model perbualan yang telah dilatih pada LM sebab dan diperhalusi pada penjanaan dan tugasan diskriminatif. Model ini juga boleh membuat panggilan ke sistem luaran (carian, terjemahan).

9. GPT-NeoX-20B EleutherAI / 2022

Model ini serupa dengan GPT-J dan juga menggunakan pengekodan kedudukan putaran. Berat model diwakili oleh apungan16. Panjang jujukan maksimum ialah 2048.

10. BLOOM BigScience / 2022

Ini adalah model sumber terbuka terbesar dalam 46 bahasa dan 13 bahasa pengaturcaraan. Untuk melatih model, set data terkumpul besar yang dipanggil ROOTS digunakan, yang merangkumi kira-kira 500 set data terbuka.

11, PaLM Google / 2022

Ini ialah model penyahkod berbilang bahasa yang besar, dilatih menggunakan Adafactor, melumpuhkan keciciran semasa pra-latihan dan menggunakan 0.1 semasa penalaan halus.

12. LLaMA Meta / 2023

Sumber terbuka berskala besar seperti LM yang digunakan untuk penyelidikan saintifik dan telah digunakan untuk melatih berbilang model arahan. Model ini menggunakan pra-LayerNorm, pengaktifan SwiGLU dan pembenaman kedudukan RoPE. Kerana ia adalah sumber terbuka, ini adalah salah satu model utama untuk memotong di selekoh.

Model Panduan untuk Teks

Tangkapan model ini digunakan untuk membetulkan output model (cth. RLHF) untuk meningkatkan kualiti tindak balas semasa dialog dan penyelesaian tugas.

1. InstructGPT OpenAI/2022

Kerja ini menyesuaikan GPT-3 untuk mengikut arahan dengan cekap. Model ini diperhalusi pada set data yang terdiri daripada pembayang dan jawapan yang dianggap baik oleh manusia berdasarkan satu set kriteria. Berdasarkan InstructGPT, OpenAI mencipta model yang kini kita kenali sebagai ChatGPT.

2. Flan-T5 Google / 2022

Model bimbingan sesuai untuk T5. Dalam sesetengah tugas, Flan-T5 11B mengatasi prestasi PaLM 62B tanpa penalaan halus ini. Model-model ini telah dikeluarkan sebagai sumber terbuka.

3. Sparrow DeepMind / 2022

Model asas diperoleh dengan menyempurnakan Chinchilla pada perbualan berkualiti tinggi terpilih, dengan 80% lapisan pertama dibekukan. Model itu kemudiannya dilatih lagi menggunakan gesaan besar untuk membimbingnya melalui perbualan. Beberapa model ganjaran juga dilatih di atas Chinchilla. Model ini boleh mengakses enjin carian dan mendapatkan semula coretan sehingga 500 aksara yang boleh menjadi respons.

Semasa inferens, model ganjaran digunakan untuk meletakkan kedudukan calon. Calon sama ada dijana oleh model atau diperoleh daripada carian, dan kemudian yang terbaik menjadi respons.

4. Alpaca Stanford University / 2023

Model bimbingan LLaMA di atas. Fokus utama adalah pada proses membina set data menggunakan GPT-3:

Matlamatnya adalah untuk mendapatkan set tiga kali ganda Tugas-Input-Output, di mana Input boleh kosong.
Manusia menjana 175 gesaan tugas dengan jawapan, yang dimasukkan ke dalam GPT-3, yang menjana tugasan baharu.
Proses penjanaan adalah berulang, dan pada setiap langkah, beberapa contoh tugasan daripada manusia dan beberapa daripada contoh tugasan yang dijana sebelum ini disediakan.
GPT-3 membahagikan tugas yang dijana kepada tugas klasifikasi atau tugas bukan klasifikasi, dan menjana input dan output yang berbeza berdasarkan ini.
Tiga tiga ditapis berdasarkan kualiti dan ketidaksamaan dengan tiga kali ganda sedia ada dalam pangkalan data.

Sebanyak 52K triple unik telah dijana dan diperhalusi pada LLaMA 7B.

5, Universiti Koala Berkeley / 2023

Ini ialah penalaan halus LLaMA pada data arahan, tetapi tidak seperti Alpaca di atas, ia bukan sahaja dijana oleh model besar seperti GPT-3 Fine -menala data. Komposisi set data ialah:

30k contoh penjelasan dan jawapan tentang matematik, puisi dan dialog
52K sampel set data Alpaca
model 160K; respons kepada keutamaan pengguna untuk kegunaan dan bahaya;
20K jawapan model dengan soalan dan penilaian pengguna; keuntungan berbanding GPT-3. Tetapi dalam ujian buta, pengguna lebih suka jawapan Koala daripada Alpaca.
Model untuk menjana imej daripada teks

Penjana imej berdasarkan penerangan teks. Model resapan digabungkan dengan transformer mendominasi bidang ini, membolehkan bukan sahaja penjanaan imej tetapi juga manipulasi kandungan dan peningkatan resolusi.

1. DALL-E OpenAI / 2021

Kerja ini dijalankan dalam dua peringkat: melatih pelabelan imej, dan kemudian mempelajari model generasi bersama teks dan imej.

Pada peringkat pertama, dVAE dilatih, di mana imej diubah daripada ruang 256x256x3 kepada 32x32xdim dan belakang, dengan malap ialah dimensi vektor perwakilan tersembunyi. Terdapat sejumlah 8192 vektor penanda sedemikian, yang akan digunakan selanjutnya dalam model.

Model utama yang digunakan ialah penyahkod transformer jarang. Dengan mengambil token teks dan token imej sebagai input, model mempelajari pengedaran bersama (Causal LM), selepas itu token imej boleh dijana berdasarkan teks. dVAE menjana imej berdasarkan token yang sama ini. Kehilangan berat untuk teg teks ialah 1/8 dan penurunan berat untuk teg imej ialah 7/8.

Untuk teg teks, terdapat benam biasa dan kedudukan, dan untuk teg imej, terdapat benam biasa, kedudukan lajur dan kedudukan baris. Panjang maksimum jujukan token teks ialah 256, dan tokenisasi ialah BPE (16K perbendaharaan kata).

2. GLIDE OpenAI / 2021

Model resapan (DM) yang beroperasi pada tahap piksel dan dikawal oleh teks. Ia berdasarkan seni bina U-Net dengan lilitan, perhatian dan sambungan sisa. Gunakan kaedah yang berbeza untuk mengawal penjanaan. Hasil skalar bagi vektor imej dan vektor teks yang diperoleh menggunakan CLIP

3 Resapan Terpendam [Resapan Stabil] CompVis [Stability AI] / 2021 [2022]

Model resapan berfungsi dalam ruang piksel , terutamanya mengandungi 2 model:

Pengekod auto VAE untuk pengurangan dimensi dan penjanaan daripada ruang terpendam

DM perwakilan dalaman

Pengekod auto dilatih dalam gan- dengan cara yang sama, menggunakan diskriminator pada keputusan mereka dan menggunakan penyelarasan tambahan untuk mewakili kedekatan dengan taburan normal piawai.
Hasilnya pergi ke penyahkodan DM dalam ruang pendam: jika keadaan ialah vektor, ia digabungkan dengan vektor pendam pada input langkah, jika ia adalah jujukan vektor, ia digunakan untuk perhatian silang lapisan U-Net yang berbeza. Untuk pembayang teks gunakan vektor CLIP.

Model umum ini boleh dilatih untuk tugasan yang berbeza: teks kepada imej, pewarnaan, lukisan, resolusi super.

4. Imagen Google / 2022

Idea utama di sebalik Imagen ialah meningkatkan saiz pengekod teks boleh membawa lebih banyak faedah kepada model generatif daripada meningkatkan saiz DM. Jadi CLIP digantikan dengan T5-XXL.

Model untuk menjana teks daripada imej

Model dalam bahagian ini sering dipanggil model multimodal kerana ia menjana teks sambil dapat menganalisis data dengan sifat yang berbeza. Teks yang dijana boleh menjadi bahasa semula jadi atau satu set arahan, seperti arahan untuk robot.

1. CoCa Google / 2022

Pengekod imej berasingan (ViT atau CNN) + penyahkod dikongsi, di mana separuh pertama memproses teks dan separuh kedua adalah dengan output pengekod imej Bekerjasama pada teks.

Imej 288x288 dipotong kepada ketulan 18x18 dan pengekod menukarnya kepada vektor + vektor kumpulan perhatian dikongsi berdasarkan semua vektor ini.

Output separuh pertama penyahkod ialah vektor teks dan vektor token CLS pada penghujung jujukan, ditandakan menggunakan sentencepece (perbendaharaan kata 64K). Vektor teks dan imej digabungkan pada separuh kedua penyahkod melalui perhatian silang.

Berat kedua-dua kerugian ialah:

Persamaan antara vektor kumpulan perhatian imej dan vektor teg CLS bagi teks pasangan perihalan imej.

Kehilangan autoregresif untuk keseluruhan keluaran penyahkod (bersyarat pada imej).

Semasa proses penalaan halus, pengekod imej boleh dibekukan dan hanya kumpulan perhatian yang boleh ditala halus.

2. PaLM-E Google / 2023

Imej dikodkan oleh ViT, vektor output serta token dan arahan teks dimasukkan ke PaLM dan PaLM menjana teks output.

PaLM-E digunakan untuk semua tugas termasuk VQA, pengesanan objek dan operasi robot.

3. GPT-4 OpenAI / 2023

Ini ialah model tertutup dengan beberapa butiran yang diketahui. Mungkin, ia mempunyai penyahkod dengan perhatian yang jarang dan input berbilang modal. Ia menggunakan latihan autoregresif dan penalaan halus RLHF dengan panjang jujukan dari 8K hingga 32K.

Ia telah diuji dalam pemeriksaan manusia dengan sampel sifar dan beberapa sampel, dan mencapai tahap seperti manusia. Ia boleh serta-merta dan langkah demi langkah menyelesaikan masalah berasaskan imej (termasuk masalah matematik), memahami dan mentafsir imej, serta boleh menganalisis dan menjana kod. Juga sesuai untuk bahasa yang berbeza, termasuk bahasa minoriti.

Ringkasan

Berikut adalah kesimpulan ringkas. Ia mungkin tidak lengkap, atau hanya salah, dan disediakan untuk rujukan sahaja.

Selepas kad grafik automatik tidak dapat dilombong, pelbagai model berskala besar berpusu-pusu, dan asas model telah berkembang Namun, peningkatan lapisan mudah dan pertumbuhan set data telah digantikan dengan pelbagai yang lebih baik teknologi. Teknologi ini Membolehkan peningkatan kualiti (penggunaan data dan alatan luaran, struktur rangkaian yang dipertingkatkan dan teknik penalaan halus baharu). Tetapi badan kerja yang semakin meningkat menunjukkan bahawa kualiti data latihan adalah lebih penting daripada kuantiti: Pemilihan dan pembentukan set data yang betul boleh mengurangkan masa latihan dan meningkatkan kualiti keputusan.

OpenAI kini menjadi sumber tertutup, mereka telah cuba untuk tidak melepaskan berat GPT-2 tetapi gagal. Tetapi GPT4 adalah kotak hitam Arah aliran dalam beberapa bulan kebelakangan ini untuk menambah baik dan mengoptimumkan kos penalaan halus dan kelajuan inferens model sumber terbuka telah mengurangkan nilai model persendirian yang besar kerana model sumber terbuka juga cepat mengejar gergasi dalam kualiti , yang membolehkan memotong di selekoh lagi.

Ringkasan model sumber terbuka akhir adalah seperti berikut:

Dalam blok model pengekod, model XLM-RoBERTa dan LaBSE dianggap sebagai penyelesaian berbilang bahasa yang boleh dipercayai;
Antara model generatif terbuka, yang paling menarik ialah LLaMA dan model dari EleutherAI (yang mempunyai semua versi yang ditala halus), Dolly-2, BLOOM (juga mempunyai pilihan penalaan halus arahan); >
Transformer-XL dan Sparse Transformer melaksanakan teknologi yang digunakan dalam model lain dan boleh; dikaji dengan teliti;

Atas ialah kandungan terperinci Ulasan Transformers: Daripada BERT kepada GPT4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7569

Tutorial CakePHP

1386

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

107

Tunjukkan Lagi

Related knowledge

Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Jun 28, 2024 am 03:51 AM

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Pembantu pengekodan AI yang ditambah konteks menggunakan Rag dan Sem-Rag Jun 10, 2024 am 11:08 AM

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Bolehkah penalaan halus benar-benar membolehkan LLM mempelajari perkara baharu: memperkenalkan pengetahuan baharu boleh menjadikan model menghasilkan lebih banyak halusinasi Jun 11, 2024 pm 03:57 PM

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Lima sekolah pembelajaran mesin yang anda tidak tahu Jun 05, 2024 pm 08:51 PM

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Jul 17, 2024 pm 06:37 PM

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

SK Hynix akan memaparkan produk berkaitan AI baharu pada 6 Ogos: HBM3E 12 lapisan, NAND 321 tinggi, dsb. Aug 01, 2024 pm 09:40 PM

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas

See all articles