Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global-AI-php.cn

Xi Xiaoyao Technology Talk Original
Author|Small play, Python

Jika anda seorang pemula dalam model besar, anda akan membuat kekecohan apabila anda mula-mula melihat gabungan perkataan yang pelik seperti GPT, PaLm , dan LLaMA Apakah pendapat anda? Jika saya pergi lebih dalam dan melihat perkataan aneh seperti BERT, BART, RoBERTa, dan ELMo muncul satu demi satu, saya tertanya-tanya adakah saya, sebagai orang baru, akan menjadi gila?

Malah seorang veteran yang telah lama berada dalam bulatan kecil NLP, dengan kelajuan pembangunan model besar yang meletup, mungkin keliru dan tidak dapat mengikuti model besar yang berubah dengan pantas ini digunakan oleh puak mana? Pada masa ini, anda mungkin perlu meminta semakan model besar untuk membantu! Kajian model besar ini "Memanfaatkan Kuasa LLM dalam Amalan: Tinjauan tentang ChatGPT dan Seterusnya" yang dilancarkan oleh penyelidik dari Amazon, Texas A&M University dan Rice University memberi kita cara untuk membina "pokok keluarga" Artikel ini telah mempelajari tentang masa lalu, masa kini dan masa depan model besar yang diwakili oleh ChatGPT, dan berdasarkan tugas, ia telah membina panduan praktikal yang sangat komprehensif untuk model besar, memperkenalkan kepada kami kelebihan dan kekurangan model besar dalam tugas yang berbeza, dan akhirnya menunjukkan semasa risiko dan cabaran model.

Tajuk kertas:
Memanfaatkan Kuasa LLM dalam Amalan: Tinjauan tentang ChatGPT dan Seterusnya

Pautan kertas: https://www.php.cn/link/ f50fb34f27bd263e6be8ffcf8967ced0

Laman utama projek:https://www.php.cn/link/968b15768f3d19770471e9436ddepan pokok.>

Untuk mengejar "sumber segala kejahatan" model besar, anda mungkin harus bermula dengan artikel "Perhatian Adalah Semua yang Anda Perlukan". Penyahkod yang dicadangkan oleh pasukan Terjemahan Mesin Google bermula , pembangunan model besar secara amnya telah mengikuti dua laluan Satu laluan adalah untuk meninggalkan bahagian Penyahkod dan hanya menggunakan Pengekod sebagai model pra-latihan untuk pengekodnya keluarga Bert. Model-model ini mula mencuba kaedah "pra-latihan tanpa pengawasan" untuk menggunakan lebih baik data bahasa semula jadi berskala besar yang lebih mudah diperoleh daripada data lain, dan kaedah "tanpa diawasi" ialah Model Bahasa Bertopeng (MLM), melalui Biarkan Mask keluarkan beberapa perkataan dalam ayat, dan biarkan model mempelajari keupayaan untuk menggunakan konteks untuk meramalkan perkataan yang dikeluarkan oleh Mask. Apabila Bert keluar, ia dianggap sebagai bom dalam bidang NLP Pada masa yang sama, SOTA digunakan dalam banyak tugas biasa pemprosesan bahasa semula jadi, seperti analisis sentimen, pengiktirafan entiti yang dinamakan, dll. Kecuali Bert dan ALBert yang dicadangkan. oleh Google, wakil cemerlang keluarga Bert Selain itu, terdapat ERNIE Baidu, RoBERTa Meta, DeBERTa Microsoft, dsb.

Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global Sayang sekali pendekatan Bert gagal menembusi Undang-undang Skala, dan perkara ini ditentukan oleh kuasa utama model besar semasa, iaitu laluan lain untuk pembangunan model besar Keluarga GPT telah benar-benar mencapai ini dengan meninggalkan bahagian Pengekod dan berdasarkan bahagian Penyahkod. Kejayaan keluarga GPT datang daripada penemuan mengejutkan penyelidik: "Memperluas saiz model bahasa boleh meningkatkan keupayaan pembelajaran sifar pukulan (sifar pukulan) dan pukulan kecil (beberapa pukulan) ini konsisten dengan keluarga Bert berdasarkan penalaan halus Terdapat perbezaan yang besar, dan ia juga merupakan sumber kuasa ajaib model bahasa berskala besar hari ini. Keluarga GPT dilatih berdasarkan ramalan perkataan seterusnya memandangkan urutan perkataan sebelumnya Oleh itu, GPT pada mulanya hanya muncul sebagai model penjanaan teks, dan kemunculan GPT-3 adalah titik perubahan dalam nasib keluarga GPT-. 3 adalah yang pertama Ia menunjukkan kepada orang ramai keupayaan ajaib yang dibawa oleh model besar di luar penjanaan teks itu sendiri, dan menunjukkan keunggulan model bahasa autoregresif ini. Bermula dari GPT-3, ChatGPT, GPT-4, Bard, PaLM dan LLaMA semasa telah berkembang pesat, membawa kepada era semasa model besar.

Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global Daripada menggabungkan dua cabang salasilah keluarga ini, anda boleh melihat hari-hari awal Word2Vec dan FastText, hingga penerokaan awal model pra-latihan ELMo dan ULFMiT, dan kemudian kepada Bert Hengkong Ia adalah hit, tetapi keluarga GPT bekerja secara senyap-senyap sehingga debut menakjubkan GPT-3 ChatGPT melonjak ke langit Selain daripada lelaran teknologi, kita juga dapat melihat bahawa OpenAI secara senyap mematuhi teknikalnya sendiri laluan dan akhirnya menjadi peneraju LLM yang tidak dapat dipertikaikan Lihat Kami telah melihat sumbangan teori utama Google kepada keseluruhan seni bina model Pengekod-Penyahkod, penyertaan berterusan Meta dalam projek sumber terbuka model besar, dan sudah tentu arah aliran LLM secara beransur-ansur bergerak ke arah "tertutup. ” sumber sejak GPT-3 Besar kemungkinan pada masa hadapan kebanyakan penyelidikan perlu menjadi penyelidikan Berasaskan API.

Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global

Data - sumber kuasa model besar

Dalam analisis akhir, adakah kuasa ajaib model besar datang daripada GPT? Saya rasa jawapannya adalah tidak. Hampir setiap lonjakan dalam keupayaan keluarga GPT telah membuat peningkatan penting dalam kuantiti, kualiti dan kepelbagaian data pra-latihan. Data latihan model besar termasuk buku, artikel, maklumat laman web, maklumat kod, dsb. Tujuan memasukkan data ini ke dalam model besar adalah untuk mencerminkan sepenuhnya dan tepat "manusia" dengan memberitahu perkataan model besar, tatabahasa, sintaks dan maklumat semantik membolehkan model memperoleh keupayaan untuk mengenali konteks dan menjana tindak balas yang koheren untuk menangkap aspek pengetahuan manusia, bahasa, budaya, dsb.

Secara umumnya, menghadapi banyak tugasan NLP, kami boleh mengklasifikasikannya kepada sampel sifar, beberapa sampel dan banyak sampel dari perspektif maklumat anotasi data. Tidak dinafikan, LLM ialah kaedah yang paling sesuai untuk tugasan sifar. Pada masa yang sama, tugasan beberapa sampel juga sangat sesuai untuk aplikasi model besar Dengan memaparkan pasangan "soal-jawab" untuk model besar, prestasi model besar boleh dipertingkatkan Pendekatan ini juga biasanya dipanggil Dalam Konteks Pembelajaran. Walaupun model besar juga boleh merangkumi tugas berbilang sampel, penalaan halus mungkin masih menjadi kaedah terbaik, di bawah beberapa kekangan seperti privasi dan pengkomputeran, model besar mungkin masih berguna.

Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global

Pada masa yang sama, model yang diperhalusi berkemungkinan menghadapi masalah perubahan dalam pengedaran data latihan dan data ujian Secara ketara, model yang diperhalusi secara amnya berfungsi dengan baik pada data OOD. Sejajar dengan itu, LLM berprestasi lebih baik kerana mereka tidak mempunyai proses pemadanan yang jelas. Pembelajaran pengukuhan ChatGPT biasa berdasarkan maklum balas manusia (RLHF) berprestasi baik dalam kebanyakan tugas klasifikasi dan terjemahan di luar pengedaran. Ia juga berfungsi dengan baik pada DDXPlus, a dataset diagnostik perubatan yang direka untuk penilaian OOD.

Panduan Praktikal - Berorientasikan Tugasan Bermula dengan Model Besar

Banyak kali, pernyataan "Model besar adalah bagus!" mereka?" "Apabila berhadapan dengan tugas tertentu, patutkah kita memilih penalaan halus atau mula menggunakan model besar tanpa berfikir? Kertas kerja ini meringkaskan "aliran membuat keputusan" praktikal untuk membantu kita menilai sama ada akan menggunakan model besar berdasarkan beberapa soalan seperti "sama ada perlu meniru manusia", "sama ada keupayaan penaakulan diperlukan", "sama ada adalah pelbagai tugas".

Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global

Dari perspektif klasifikasi tugas NLP:

Pemahaman bahasa semula jadi tradisional

Pada masa ini terdapat sejumlah besar data berlabel kaya Untuk banyak tugasan NLP, model yang diperhalusi mungkin masih mempunyai kelebihan yang kukuh Dalam kebanyakan set data, LLM adalah lebih rendah daripada model yang diperhalusi. LLM secara amnya Lebih rendah daripada model yang diperhalusi;

S&J: Pada SQuADv2, QuAC dan banyak set data lain, Model yang diperhalusi mempunyai prestasi yang lebih baik, dan pada CoQA, LLM berprestasi serupa dengan model yang diperhalusi;
Pendapatan maklumat: LLM tidak telah digunakan secara meluas dalam bidang perolehan maklumat, dan ciri-ciri tugasan bagi mendapatkan maklumat menjadikan tiada cara semula jadi untuk Pemodelan model besar tugas mendapatkan maklumat
Pengiktirafan entiti yang dinamakan: Dalam pengiktirafan entiti yang dinamakan, model besar masih lagi; jauh lebih rendah daripada model yang ditala halus Prestasi model yang ditala halus pada CoNLL03 hampir dua kali ganda daripada model besar, tetapi pengiktirafan entiti Dinamakan, sebagai tugas perantaraan NLP klasik, mungkin akan digantikan oleh model yang besar.
Ringkasnya, untuk kebanyakan tugas pemahaman bahasa semula jadi tradisional, model yang ditala halus berprestasi lebih baik. Sudah tentu, potensi LLM dihadkan oleh projek Prompt yang mungkin tidak dikeluarkan sepenuhnya (sebenarnya, model penalaan halus belum mencapai had atas Pada masa yang sama, dalam beberapa bidang khusus, seperti Teks Pelbagai). Klasifikasi, Adversarial NLI dan tugasan lain, LLM mempunyai keupayaan yang lebih kukuh. Oleh itu, keupayaan generalisasi membawa kepada prestasi yang lebih baik, tetapi buat masa ini, untuk data yang dilabel secara matang, penalaan halus model mungkin masih merupakan penyelesaian yang optimum untuk tugasan tradisional.
Penjanaan bahasa semula jadi

Berbanding dengan pemahaman bahasa semula jadi, penjanaan bahasa semula jadi mungkin peringkat untuk model besar. Matlamat utama penjanaan bahasa semula jadi adalah untuk mencipta urutan yang koheren, lancar dan bermakna Ia biasanya boleh dibahagikan kepada dua kategori Satu ialah tugasan yang diwakili oleh terjemahan mesin dan ringkasan maklumat perenggan, dan satu lagi adalah tugasan yang lebih terbuka seperti menulis e-mel, menulis berita, mencipta cerita, dsb. Khususnya:
- Ringkasan teks: Untuk ringkasan teks, jika penunjuk penilaian automatik tradisional seperti ROUGE digunakan, LLM tidak menunjukkan kelebihan yang jelas, tetapi jika keputusan penilaian manual diperkenalkan, Prestasi LLM akan menjadi jauh lebih baik daripada model yang diperhalusi. Ini sebenarnya menunjukkan bahawa penunjuk penilaian automatik semasa kadangkala tidak mencerminkan sepenuhnya dan tepat kesan penjanaan teks
- Terjemahan Mesin: Untuk tugas seperti terjemahan mesin dengan perisian komersial matang, prestasi LLM secara amnya adalah rendah sedikit; Ia adalah alat terjemahan komersial, tetapi dalam terjemahan beberapa bahasa yang tidak popular, LLM kadangkala menunjukkan hasil yang lebih baik Contohnya, dalam tugas menterjemah bahasa Romania ke dalam bahasa Inggeris, LLM mengalahkan SOTA model yang ditala halus dalam kes sampel sifar. dan beberapa sampel dan pembetulan kod, LLM semuanya menunjukkan prestasi yang mengejutkan.
- Tugas berintensif pengetahuan
Tugas berintensif pengetahuan secara amnya merujuk kepada tugas yang sangat bergantung pada pengetahuan latar belakang, kepakaran khusus domain atau tugas berintensif pengetahuan adalah berbeza daripada pola mudah Pengiktirafan dan analisis sintaksis memerlukan "akal sehat" tentang dunia sebenar kita dan keupayaan untuk menggunakannya dengan betul. tugas, model diperlukan untuk Untuk menjawab soalan fakta tanpa maklumat luaran, LLM telah menunjukkan prestasi yang lebih baik pada banyak set data seperti NaturalQuestions, WebQuestions dan TriviaQA Terutamanya dalam TriviaQA, LLM sampel sifar telah menunjukkan prestasi yang lebih baik daripada penalaan halus. Prestasi jantina model;

Pemahaman bahasa berbilang tugas berskala besar: Pemahaman bahasa berbilang tugasan berskala besar (MMLU) mengandungi 57 soalan aneka pilihan mengenai topik yang berbeza, dan juga memerlukan model mempunyai umum Dalam hal ini Tugas yang paling mengagumkan ialah GPT-4, yang mencapai ketepatan 86.5% dalam MMLU.
- Perlu diperhatikan bahawa dalam tugas berintensif pengetahuan, model besar tidak selalunya berkesan Kadangkala, model besar mungkin tidak berguna atau malah salah untuk pengetahuan dunia sebenar, yang "tidak konsisten" Pengetahuan boleh. kadangkala menjadikan model besar berprestasi lebih teruk daripada meneka secara rawak. Sebagai contoh, tugasan Redefine Math memerlukan model untuk memilih antara makna asal dan makna yang ditakrifkan semula. Ini memerlukan keupayaan untuk betul-betul bertentangan dengan pengetahuan yang dipelajari oleh model bahasa berskala besar rambang mata.
- Tugas inferens
Skala LLM boleh meningkatkan keupayaan model bahasa pra-latihan apabila saiz model meningkat secara eksponen, beberapa keupayaan utama seperti penaakulan akan berkembang secara beransur-ansur dengan parameter. Apabila diaktifkan, keupayaan penaakulan aritmetik dan penaakulan akal bagi LLM amat berkuasa yang boleh dilihat dengan mata kasar Dalam jenis tugasan ini:

Penaakulan aritmetik: Tidak keterlaluan untuk mengatakan bahawa GPT-4. pertimbangan aritmetik dan penaakulan Keupayaan melebihi mana-mana model sebelumnya pada GSM8k, SVAMP dan AQuA mempunyai keupayaan terobosan Perlu dinyatakan bahawa kuasa pengkomputeran LLM boleh dipertingkatkan dengan ketara melalui kaedah segera rantaian pemikiran (CoT). 🎜>
Penaakulan akal sehat: Penaakulan akal memerlukan model besar untuk menghafal maklumat fakta dan melakukan penaakulan berbilang langkah Dalam kebanyakan set data, LLM mengekalkan penguasaan mereka terhadap model yang diperhalusi, terutamanya dalam ARC-C (ketiga hingga. sains gred kesembilan Antara soalan peperiksaan yang sukar), prestasi GPT-4 hampir 100% (96.3%).
- Ringkasan - Cabaran dan masa depan model besar
  
  Model besar sudah pasti akan menjadi sebahagian daripada kerja dan kehidupan kami untuk masa yang lama pada masa hadapan, dan untuk "lelaki besar" sedemikian yang sangat interaktif dengan kami kehidupan, Sebagai tambahan kepada prestasi, kecekapan, kos dan isu-isu lain, isu keselamatan model bahasa berskala besar hampir menjadi keutamaan di antara semua cabaran yang dihadapi oleh model besar Halusinasi mesin adalah masalah utama model besar yang pada masa ini tidak mempunyai kecemerlangan penyelesaian, keluaran halusinasi berat sebelah atau berbahaya oleh model besar akan membawa akibat yang serius kepada pengguna. Pada masa yang sama, apabila "kredibiliti" LLM meningkat, pengguna mungkin menjadi terlalu bergantung kepada LLM dan percaya bahawa mereka boleh memberikan maklumat yang tepat Aliran yang boleh diramal ini meningkatkan risiko keselamatan model besar.
  
  Selain maklumat yang mengelirukan, disebabkan kualiti tinggi dan kos teks yang rendah yang dijana oleh LLM, LLM mungkin dieksploitasi sebagai alat untuk serangan seperti kebencian, diskriminasi, keganasan dan maklumat yang salah diserang tanpa niat jahat. Penyerang memberikan maklumat haram atau mencuri privasi Menurut laporan, pekerja Samsung secara tidak sengaja membocorkan data rahsia seperti atribut kod sumber program terkini dan rekod mesyuarat dalaman yang berkaitan dengan perkakasan semasa menggunakan ChatGPT untuk mengendalikan kerja.
  
  Selain itu, kunci kepada sama ada model besar boleh digunakan dalam bidang sensitif, seperti penjagaan kesihatan, kewangan, undang-undang, dll., terletak pada isu "kredibiliti " bagi model besar, pada masa ini, keteguhan model besar dengan sampel sifar sering berkurangan. Pada masa yang sama, LLM telah terbukti berat sebelah atau diskriminasi dari segi sosial, dengan banyak kajian memerhatikan perbezaan prestasi yang ketara antara kategori demografi seperti loghat, agama, jantina dan bangsa. Ini boleh membawa kepada isu "keadilan" untuk model besar.
  
  Akhirnya, jika kita melepaskan diri daripada isu sosial untuk membuat ringkasan, kita juga boleh melihat masa depan penyelidikan model besar Cabaran utama yang dihadapi oleh model besar pada masa ini boleh diklasifikasikan seperti berikut:
  1. Pengesahan praktikal : Set data penilaian semasa untuk model besar selalunya merupakan set data akademik yang lebih seperti "mainan". adalah keperluan mendesak untuk set data sebenar yang pelbagai dan kompleks Nilaikan model mengenai masalah dunia sebenar untuk memastikan model itu dapat menghadapi cabaran dunia sebenar menimbulkan satu lagi persoalan. Model tersebut harus diselaraskan dengan pilihan nilai manusia untuk memastikan model tersebut Kelakuan itu selaras dengan jangkaan dan tidak akan "mengukuhkan" keputusan yang buruk Sebagai sistem yang maju dan kompleks, jika isu etika ini tidak ditangani dengan serius , ia mungkin menimbulkan bencana bagi manusia;
  2. Bahaya keselamatan: Model besar Penyelidikan harus lebih menekankan isu keselamatan dan menghapuskan bahaya keselamatan diperlukan untuk memastikan pembangunan yang selamat bagi model besar perlu dilakukan mengenai kebolehtafsiran model, penyeliaan dan pengurusan Isu keselamatan harus menjadi bahagian penting dalam pembangunan model, dan Hiasan yang tidak menyamankan kek
  3. Model masa depan: Adakah prestasi model masih meningkat sebagai model saiz bertambah? , soalan ini dianggarkan sukar untuk dijawab oleh OpenAI Pemahaman kami tentang fenomena ajaib model besar masih sangat terhad, dan pandangan tentang prinsip model besar masih sangat berharga.

Atas ialah kandungan terperinci Kajian model besar ada di sini! Satu artikel akan membantu anda menjelaskan sejarah evolusi model besar gergasi AI global. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!