Ulasan Transformers: Daripada BERT kepada GPT4
Kecerdasan buatan telah menjadi salah satu topik yang paling banyak diperkatakan sejak beberapa tahun kebelakangan ini, dan perkhidmatan yang dahulunya dianggap sebagai fiksyen sains semata-mata kini menjadi kenyataan berkat pembangunan rangkaian saraf. Daripada ejen perbualan kepada penjanaan kandungan media, kecerdasan buatan mengubah cara kita berinteraksi dengan teknologi. Khususnya, model pembelajaran mesin (ML) telah mencapai kemajuan yang ketara dalam bidang pemprosesan bahasa semula jadi (NLP). Satu kejayaan utama ialah pengenalan "perhatian diri" dan seni bina Transformers untuk pemprosesan jujukan, yang membolehkan beberapa masalah utama yang sebelum ini mendominasi bidang diselesaikan.
Dalam artikel ini, kita akan melihat seni bina Transformers revolusioner dan bagaimana ia mengubah NLP, kami juga akan memberikan ulasan komprehensif Transformers dari BERT kepada model Alpaca, menonjolkan ciri-ciri utama setiap model dan potensi aplikasinya.
Model teks seperti Bert
Bahagian pertama ialah model berdasarkan pengekod Transformer, yang digunakan untuk pengvektoran, pengelasan, pelabelan jujukan, QA (Soal Jawab), NER (Entiti Dinamakan Pengiktirafan), dsb.
1. BERT Google / 2018
Pengekod Transformer, tokenisasi bahagian perkataan (30K perbendaharaan kata). Pembenaman input terdiri daripada tiga vektor: vektor label, vektor kedudukan boleh dilatih dan vektor serpihan (sama ada teks pertama atau teks kedua). Input model ialah pembenaman token CLS, pembenaman teks pertama dan pembenaman teks kedua.
BERT mempunyai dua tugas latihan: Pemodelan Bahasa Bertopeng (MLM) dan Prediksi Ayat Seterusnya (NSP). Dalam MLM, 15% token bertopeng, 80% digantikan dengan token MASK, 10% digantikan dengan token rawak, dan 10% kekal tidak berubah. Model meramalkan token yang betul, dan kerugian hanya dikira pada 15% token yang disekat ini. Dalam NSP, model meramalkan sama ada teks kedua mengikuti teks pertama. Ramalan dibuat pada vektor keluaran token CLS.
Untuk mempercepatkan latihan, 90% latihan pertama dilakukan pada panjang urutan 128 token, dan kemudian baki 10% masa dihabiskan untuk melatih model pada 512 token untuk mendapatkan pembenaman kedudukan yang lebih berkesan .
2. Facebook RoBERTa / 2019
Versi BERT yang dipertingkatkan, ia hanya dilatih pada MLM (kerana NSP dianggap kurang berguna), dan urutan latihan lebih panjang (512 token). Menggunakan pelekat dinamik (token yang berbeza disembunyikan apabila data yang sama diproses semula), hiperparameter latihan dipilih dengan teliti.
3. Dalam XLM asal, semua bahasa mempunyai perbendaharaan kata BPE yang dikongsi.
XLM mempunyai dua tugas latihan: MLM dan terjemahan. Terjemahan pada dasarnya adalah sama seperti MLM pada sepasang teks, tetapi teks tersebut adalah terjemahan selari antara satu sama lain, dengan topeng rawak dan bahasa pengekodan pembenaman segmen.
4. Transformer-XL Carnegie Mellon University / 2019
Model ini direka bentuk untuk memproses jujukan yang panjang dan mempunyai dua idea utama: pemprosesan gelung serpihan dan pengekodan kedudukan relatif.
Teks panjang dibahagikan kepada segmen dan diproses satu segmen pada satu masa. Output segmen sebelumnya dicache, dan apabila mengira perhatian diri dalam segmen semasa, kunci dan nilai dikira berdasarkan output segmen semasa dan segmen sebelumnya (hanya digabungkan bersama). Kecerunan juga dikira hanya dalam segmen semasa.
Kaedah ini tidak berfungsi dengan kedudukan mutlak. Oleh itu, formula berat perhatian diparameterkan semula dalam model. Vektor pengekodan kedudukan mutlak digantikan dengan matriks tetap berdasarkan sinus jarak antara kedudukan penanda dan vektor boleh dilatih yang biasa kepada semua kedudukan.
5. ERNIE Tsinghua University, Huawei / 2019
Membenamkan maklumat tentang entiti yang dinamakan dalam graf pengetahuan ke dalam BERT. Input terdiri daripada satu set token teks dan satu set token entiti (setiap token mewakili keseluruhan entiti). Token teks dikodkan oleh BERT. Di atas BERT, terdapat satu set blok pengekod K (mengambil kira kira-kira 3% daripada parameter rangkaian). Dalam blok ini:
Vektor kemas kini teg teks dan vektor asal teg entiti mula-mula dikira secara berasingan- Vektor entiti dibandingkan dengan kali pertama ia muncul dalam padanan tag teks;
- diaktifkan menggunakan GeLU dan digunakan untuk mendapatkan perwakilan tersembunyi baharu bagi teg teks
- Vektor baharu untuk teg teks dan entiti diperoleh daripada perwakilan tersembunyi dan diluluskan; sebagai input kepada blok pengekod Seterusnya.
- Semasa pra-latihan, tiga kerugian dikira: MLM, NSP dan ramalan entiti daripada token (seperti pengekod auto menggunakan peraturan berikut:
- Dalam 15% kes, padanan dialih keluar dan model mesti hanya Ramalkan entiti berdasarkan teks;
- adalah perkara biasa dalam kes lain.
- Model pra-latihan boleh diperhalusi seperti model BERT biasa (dengan token CLS). Prosedur tambahan juga boleh digunakan untuk penalaan halus untuk menentukan perhubungan antara entiti dan jenisnya.
6. XLNet Carnegie Mellon University / 2019
Sebab terdapat masalah dalam proses latihan BERT:
- Semasa latihan, pengiraan kerugian hanya mengira markah topeng.
- Hanya penanda individu disekat, dan ramalan satu penanda yang disekat tidak akan menjejaskan ramalan penanda lain.
- Tiada token MASK dalam aplikasi sebenar yang model itu secara aktif melihat semasa latihan.
XLNet adalah berdasarkan Transformer-XL, kecuali untuk tugas pemodelan bahasa (PLM) gantian, di mana ia belajar untuk meramalkan token dalam konteks pendek dan bukannya menggunakan MASK secara langsung. Ini memastikan bahawa kecerunan dikira untuk semua penanda dan menghapuskan keperluan untuk penanda topeng khas.
Token dalam konteks dikacau (contohnya: token ke-i boleh diramalkan berdasarkan token ke-2 dan ke-1+), tetapi kedudukannya masih diketahui. Ini tidak boleh dilakukan dengan pengekodan kedudukan semasa (termasuk Transformer-XL). Apabila cuba meramalkan kebarangkalian token yang diberikan sebahagian daripada konteks, model tidak seharusnya mengetahui token itu sendiri, tetapi harus mengetahui kedudukan token dalam konteks. Untuk menyelesaikan masalah ini, mereka membahagikan perhatian diri kepada dua aliran:
- Pada setiap kedudukan penanda, terdapat dua vektor dan bukannya satu: vektor kandungan dan vektor pertanyaan.
- Vektor kandungan mengandungi maklumat lengkap tentang token, manakala vektor pertanyaan hanya mengandungi maklumat lokasi. Kedua-dua vektor
- token dikira berdasarkan vektor konteks, tetapi vektor pertanyaan dalam perhatian kendiri dikira menggunakan vektor kandungan lalu dan vektor kandungan dikira menggunakan vektor pertanyaan lalu.
- vektor pertanyaan tidak menerima maklumat tentang kandungan token yang sepadan, tetapi mengetahui semua maklumat tentang konteks, manakala vektor kandungan mengandungi maklumat lengkap.
Semasa penalaan halus, jika anda mengabaikan vektor pertanyaan, model akan berfungsi seperti Transformer-XL biasa.
Dalam amalan, model memerlukan konteks mestilah cukup panjang untuk model belajar dengan betul. Ia mempelajari jumlah data yang sama seperti RoBERTa dengan hasil yang serupa, tetapi disebabkan kerumitan pelaksanaan, model itu tidak menjadi popular seperti RoBERTa.
7, ALBERT Google / 2019
Permudahkan BERT tanpa mengorbankan kualiti:
- Gunakan parameter biasa dalam blok pengekod yang berbeza, dan Telah ditunjukkan bahawa berat perhatian diri boleh dikongsi, tetapi membelah berat lapisan yang bersambung sepenuhnya membawa kepada kehilangan kualiti.
- Menggunakan benam input yang lebih kecil dan vektor lapisan tersembunyi yang lebih besar daripada BERT. Ini boleh dicapai dengan menggunakan matriks unjuran tambahan pada input rangkaian, yang juga mengasingkan saiz pembenaman daripada saiz perwakilan tersembunyi.
- Parameter model dikurangkan sebanyak 18 kali, dan kelajuan larian meningkat sebanyak 1.7 kali.
Model ini dilatih mengenai MLM dan Prediksi Susunan Ayat (SOP).
8. DistilBERT Google / 2019
Cara lain untuk mengoptimumkan BERT ialah penyulingan:
- Separuh bilangan blok pengekod
- Tiga komponen kehilangan : MLM, entropi silang dengan output model guru, dan jarak kosinus antara output lapisan yang sepadan.
- Model ini 40% lebih kecil dan 60% lebih pantas daripada model guru, dan mengekalkan 97% kualiti merentas pelbagai tugasan.
9 LaBSE Google / 2020
Modelisasi berbilang bahasa berdasarkan BERT. Ia dilatih mengenai MLM dan TLM (20% daripada penanda bertopeng) dan kemudian diperhalusi. Ia menyokong lebih 100 bahasa dan mengandungi 500K perbendaharaan kata bertanda.
10. ELECTRA Google, Stanford University / 2020
Mempercepatkan latihan BERT menggunakan kaedah lawan generatif:
- Melatih dua model seperti BERT: penjana kecil dan diskriminator utama
- penjana dilatih pada MLM dan kemudian diisi dengan token bertopeng
- Diskriminator dilatih untuk meramalkan keaslian teks yang dihasilkan oleh penjana (tugas pengesanan penggantian )
- Selepas latihan selesai, keluarkan penjana dan sesuaikan dengan diskriminator
Jumlah data latihan adalah sama seperti RoBERTa atau XLNet, dan modelnya lebih pantas daripada BERT, RoBERTa dan ALBERT Belajar ke tahap kualiti yang sama. Lebih lama ia dilatih, lebih baik prestasinya.
11. DeBERTa Microsoft / 2020
Model lain yang memisahkan kandungan dan kedudukan vektor penanda kepada dua vektor yang berasingan:
- Vektor kedudukan berada dalam Shared antara semua lapisan, dan adalah relatif, iaitu terdapat satu untuk setiap jarak yang mungkin antara penanda.
- Menambahkan dua matriks berat baharu K_pos dan Q_pos untuk mereka.
- Ubah suai pengiraan berat perhatian dan ringkaskannya kepada jumlah tiga produk: Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
- Seperti dalam ALBERT, gunakan matriks unjuran untuk mengurangkan pembenaman saiz Dipisahkan daripada saiz vektor perwakilan tanda tersembunyi.
Model yang serupa dengan GPT dan T5
Model berdasarkan Transformers lengkap. Rangkaian aplikasinya sangat luas: sebagai tambahan kepada tugas bahagian sebelumnya, ia termasuk ejen perbualan, terjemahan mesin, penaakulan logik dan matematik, analisis dan penjanaan kod, dan pada asasnya penjanaan teks. Model terbesar dan "paling pintar" biasanya berdasarkan seni bina penyahkod. Model sedemikian sering berprestasi baik dalam mod beberapa tangkapan dan sifar tangkapan tanpa penalaan halus.
1. GPT-2 OpenAI/2018
Penyahkod dilatih mengenai tugas LM sebab (meramalkan token seterusnya berdasarkan konteks sebelah kiri). Dari perspektif seni bina, terdapat beberapa perubahan kecil: mengalih keluar lapisan perhatian silang daripada setiap blok penyahkod dan menggunakan LayerNorm
Tokenizer yang digunakan ialah BPE peringkat bait (perbendaharaan kata 50K) dan tidak menggunakan subrentetan yang serupa seperti ("anjing", "anjing!", "anjing."). Panjang jujukan maksimum ialah 1024. Output lapisan menyimpan semua teg yang dijana sebelum ini.
2, T5 Google / 2019
Pra-latihan penuh tentang MLM (15% daripada token bertopeng), rentang bertopengkan oleh kod (
Token Masking
Alih Keluar Token
- Token FillingTerbalikkan susunan token dalam ayatJadikan token rawak sebagai permulaan urutan
- Gunakan BPE peringkat bait (saiz perbendaharaan kata 50K)
- 4. CTRL Salesforce / 2019
Ini ialah model GPT-2 dengan seni bina Sparse Transformer dan panjang jujukan 2048 token. Adakah anda masih ingat ayat itu: Jangan tanya, tanya sahaja: GPT3
6, mT5 Google / 2020 adalah berdasarkan model T5, dengan latihan yang serupa, tetapi menggunakan berbilang bahasa data. Pengaktifan ReLU telah digantikan dengan GeGLU dan perbendaharaan kata telah dikembangkan kepada 250K token. 7. GLAM Google / 2021Model ini secara konsepnya serupa dengan Switch Transformer, tetapi lebih memfokuskan pada bekerja dalam mod beberapa sampel dan bukannya penalaan halus. Model saiz berbeza menggunakan 32 hingga 256 lapisan pakar, K=2. Gunakan pengekodan kedudukan relatif daripada Transformer-XL. Apabila memproses token, kurang daripada 10% parameter rangkaian diaktifkan. 8. LaMDA Google / 2021Model yang serupa dengan gpt. Model ini ialah model perbualan yang telah dilatih pada LM sebab dan diperhalusi pada penjanaan dan tugasan diskriminatif. Model ini juga boleh membuat panggilan ke sistem luaran (carian, terjemahan). 9. GPT-NeoX-20B EleutherAI / 2022Model ini serupa dengan GPT-J dan juga menggunakan pengekodan kedudukan putaran. Berat model diwakili oleh apungan16. Panjang jujukan maksimum ialah 2048. 10. BLOOM BigScience / 2022Ini adalah model sumber terbuka terbesar dalam 46 bahasa dan 13 bahasa pengaturcaraan. Untuk melatih model, set data terkumpul besar yang dipanggil ROOTS digunakan, yang merangkumi kira-kira 500 set data terbuka. 11, PaLM Google / 2022Ini ialah model penyahkod berbilang bahasa yang besar, dilatih menggunakan Adafactor, melumpuhkan keciciran semasa pra-latihan dan menggunakan 0.1 semasa penalaan halus. 12. LLaMA Meta / 2023Sumber terbuka berskala besar seperti LM yang digunakan untuk penyelidikan saintifik dan telah digunakan untuk melatih berbilang model arahan. Model ini menggunakan pra-LayerNorm, pengaktifan SwiGLU dan pembenaman kedudukan RoPE. Kerana ia adalah sumber terbuka, ini adalah salah satu model utama untuk memotong di selekoh. Model Panduan untuk TeksTangkapan model ini digunakan untuk membetulkan output model (cth. RLHF) untuk meningkatkan kualiti tindak balas semasa dialog dan penyelesaian tugas. 1. InstructGPT OpenAI/2022Kerja ini menyesuaikan GPT-3 untuk mengikut arahan dengan cekap. Model ini diperhalusi pada set data yang terdiri daripada pembayang dan jawapan yang dianggap baik oleh manusia berdasarkan satu set kriteria. Berdasarkan InstructGPT, OpenAI mencipta model yang kini kita kenali sebagai ChatGPT. 2. Flan-T5 Google / 2022Model bimbingan sesuai untuk T5. Dalam sesetengah tugas, Flan-T5 11B mengatasi prestasi PaLM 62B tanpa penalaan halus ini. Model-model ini telah dikeluarkan sebagai sumber terbuka. 3. Sparrow DeepMind / 2022Model asas diperoleh dengan menyempurnakan Chinchilla pada perbualan berkualiti tinggi terpilih, dengan 80% lapisan pertama dibekukan. Model itu kemudiannya dilatih lagi menggunakan gesaan besar untuk membimbingnya melalui perbualan. Beberapa model ganjaran juga dilatih di atas Chinchilla. Model ini boleh mengakses enjin carian dan mendapatkan semula coretan sehingga 500 aksara yang boleh menjadi respons. Semasa inferens, model ganjaran digunakan untuk meletakkan kedudukan calon. Calon sama ada dijana oleh model atau diperoleh daripada carian, dan kemudian yang terbaik menjadi respons.4. Alpaca Stanford University / 2023
Model bimbingan LLaMA di atas. Fokus utama adalah pada proses membina set data menggunakan GPT-3:
- Matlamatnya adalah untuk mendapatkan set tiga kali ganda Tugas-Input-Output, di mana Input boleh kosong.
- Manusia menjana 175 gesaan tugas dengan jawapan, yang dimasukkan ke dalam GPT-3, yang menjana tugasan baharu.
- Proses penjanaan adalah berulang, dan pada setiap langkah, beberapa contoh tugasan daripada manusia dan beberapa daripada contoh tugasan yang dijana sebelum ini disediakan.
- GPT-3 membahagikan tugas yang dijana kepada tugas klasifikasi atau tugas bukan klasifikasi, dan menjana input dan output yang berbeza berdasarkan ini.
- Tiga tiga ditapis berdasarkan kualiti dan ketidaksamaan dengan tiga kali ganda sedia ada dalam pangkalan data.
Sebanyak 52K triple unik telah dijana dan diperhalusi pada LLaMA 7B.
5, Universiti Koala Berkeley / 2023
Ini ialah penalaan halus LLaMA pada data arahan, tetapi tidak seperti Alpaca di atas, ia bukan sahaja dijana oleh model besar seperti GPT-3 Fine -menala data. Komposisi set data ialah:
- 30k contoh penjelasan dan jawapan tentang matematik, puisi dan dialog
- 52K sampel set data Alpaca
- model 160K; respons kepada keutamaan pengguna untuk kegunaan dan bahaya;
- 20K jawapan model dengan soalan dan penilaian pengguna; keuntungan berbanding GPT-3. Tetapi dalam ujian buta, pengguna lebih suka jawapan Koala daripada Alpaca.
- Model untuk menjana imej daripada teks
Pengekod auto VAE untuk pengurangan dimensi dan penjanaan daripada ruang terpendam
DM perwakilan dalaman
- Pengekod auto dilatih dalam gan- dengan cara yang sama, menggunakan diskriminator pada keputusan mereka dan menggunakan penyelarasan tambahan untuk mewakili kedekatan dengan taburan normal piawai.
- Hasilnya pergi ke penyahkodan DM dalam ruang pendam: jika keadaan ialah vektor, ia digabungkan dengan vektor pendam pada input langkah, jika ia adalah jujukan vektor, ia digunakan untuk perhatian silang lapisan U-Net yang berbeza. Untuk pembayang teks gunakan vektor CLIP.
Persamaan antara vektor kumpulan perhatian imej dan vektor teg CLS bagi teks pasangan perihalan imej.
Kehilangan autoregresif untuk keseluruhan keluaran penyahkod (bersyarat pada imej).
- Semasa proses penalaan halus, pengekod imej boleh dibekukan dan hanya kumpulan perhatian yang boleh ditala halus.
- Dalam blok model pengekod, model XLM-RoBERTa dan LaBSE dianggap sebagai penyelesaian berbilang bahasa yang boleh dipercayai;
- Antara model generatif terbuka, yang paling menarik ialah LLaMA dan model dari EleutherAI (yang mempunyai semua versi yang ditala halus), Dolly-2, BLOOM (juga mempunyai pilihan penalaan halus arahan); > Dari segi kod, model SantaCoder tidak teruk, tetapi secara keseluruhan kualitinya jelas ketinggalan berbanding ChatGPT/GPT-4
- Transformer-XL dan Sparse Transformer melaksanakan teknologi yang digunakan dalam model lain dan boleh; dikaji dengan teliti;
2. PaLM-E Google / 2023
Imej dikodkan oleh ViT, vektor output serta token dan arahan teks dimasukkan ke PaLM dan PaLM menjana teks output.
PaLM-E digunakan untuk semua tugas termasuk VQA, pengesanan objek dan operasi robot.
3. GPT-4 OpenAI / 2023
Ini ialah model tertutup dengan beberapa butiran yang diketahui. Mungkin, ia mempunyai penyahkod dengan perhatian yang jarang dan input berbilang modal. Ia menggunakan latihan autoregresif dan penalaan halus RLHF dengan panjang jujukan dari 8K hingga 32K.
Ia telah diuji dalam pemeriksaan manusia dengan sampel sifar dan beberapa sampel, dan mencapai tahap seperti manusia. Ia boleh serta-merta dan langkah demi langkah menyelesaikan masalah berasaskan imej (termasuk masalah matematik), memahami dan mentafsir imej, serta boleh menganalisis dan menjana kod. Juga sesuai untuk bahasa yang berbeza, termasuk bahasa minoriti.
Ringkasan
Berikut adalah kesimpulan ringkas. Ia mungkin tidak lengkap, atau hanya salah, dan disediakan untuk rujukan sahaja.
Selepas kad grafik automatik tidak dapat dilombong, pelbagai model berskala besar berpusu-pusu, dan asas model telah berkembang Namun, peningkatan lapisan mudah dan pertumbuhan set data telah digantikan dengan pelbagai yang lebih baik teknologi. Teknologi ini Membolehkan peningkatan kualiti (penggunaan data dan alatan luaran, struktur rangkaian yang dipertingkatkan dan teknik penalaan halus baharu). Tetapi badan kerja yang semakin meningkat menunjukkan bahawa kualiti data latihan adalah lebih penting daripada kuantiti: Pemilihan dan pembentukan set data yang betul boleh mengurangkan masa latihan dan meningkatkan kualiti keputusan.
OpenAI kini menjadi sumber tertutup, mereka telah cuba untuk tidak melepaskan berat GPT-2 tetapi gagal. Tetapi GPT4 adalah kotak hitam Arah aliran dalam beberapa bulan kebelakangan ini untuk menambah baik dan mengoptimumkan kos penalaan halus dan kelajuan inferens model sumber terbuka telah mengurangkan nilai model persendirian yang besar kerana model sumber terbuka juga cepat mengejar gergasi dalam kualiti , yang membolehkan memotong di selekoh lagi.
Ringkasan model sumber terbuka akhir adalah seperti berikut:
Atas ialah kandungan terperinci Ulasan Transformers: Daripada BERT kepada GPT4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas
