Bagaimana untuk mengurangkan halusinasi model bahasa yang besar
Halusinasi
LLM ialah fenomena di mana model bahasa besar (LLM) menjana output yang tidak bermakna atau tidak tepat yang tidak mengikut corak atau objek sebenar. Output AI yang salah ini berpunca daripada pelbagai faktor, termasuk:
Overfitting: LLM mempelajari bunyi bising dan berat sebelah dalam data latihan sebagai corak, menyebabkan model menghasilkan output yang salah pada data ujian.
Kerumitan model yang tinggi: LLM mempunyai kerumitan model yang tinggi, yang membolehkan mereka melihat korelasi yang tidak wujud, dengan itu mencipta ilusi.
Syarikat utama yang membangunkan sistem AI generatif sedang mengambil langkah untuk menangani masalah halusinasi AI, walaupun sesetengah pakar percaya menghapuskan sepenuhnya keluaran yang salah mungkin mustahil.
Google menghubungkan modelnya ke Internet untuk melatih respons darat daripada data dan maklumat rangkaian, dengan itu mengurangkan pemasangan berlebihan.
OpenAI menggunakan maklum balas manusia dan pembelajaran pengukuhan untuk memperhalusi output ChatGPT. Mereka mencadangkan "penyeliaan proses" yang memberi ganjaran kepada model untuk langkah penaakulan yang betul, bukan hanya jawapan akhir. Ini boleh meningkatkan kebolehjelasan, tetapi ada yang mempersoalkan keberkesanannya terhadap fabrikasi.
Walaupun terdapat risiko halusinasi AI, syarikat dan pengguna masih boleh mengambil langkah untuk mengimbangi dan mengehadkan potensi bahaya mereka. Berikut ialah beberapa cara untuk menyelesaikannya:
Gunakan data latihan berkualiti tinggi
Menggunakan data latihan berkualiti tinggi adalah kunci untuk mengurangkan halusinasi AI. Data latihan berkualiti tinggi hendaklah pelbagai, seimbang, tersusun dengan baik dan mencerminkan situasi dunia sebenar.
Jelaskan Tujuan Penggunaan
Mentakrifkan dengan jelas tujuan khusus dan penggunaan yang dibenarkan bagi sistem AI boleh membantu menjauhkannya daripada kandungan halusinasi. Pembangun dan pengguna harus memahami dengan jelas fungsi dan kegunaan model kecerdasan buatan dan mematuhinya dengan tegas apabila menggunakannya.
Gunakan templat data untuk membimbing output kecerdasan buatan
Menggunakan templat data berstruktur boleh membantu model kecerdasan buatan menjana output yang mematuhi corak yang dijangkakan. Templat ini menyediakan format yang konsisten untuk input data ke dalam model dan mengehadkan skop inferens model.
Limit Reaction
Menetapkan kekangan dan had pada potensi keluaran model boleh mengurangkan spekulasi yang tidak terkawal. Sebagai contoh, anda boleh menentukan ambang kebarangkalian yang jelas dan menggunakan alat penapisan untuk menapis respons yang tidak memenuhi jangkaan.
Menguji dan menambah baik sistem secara berterusan
Melalui ujian menyeluruh dan pemantauan berterusan, prestasi sistem kecerdasan buatan boleh dipertingkatkan secara berterusan. Menilai output boleh mengenal pasti kawasan yang memerlukan tweaker, manakala data baharu boleh digunakan untuk melatih semula model dan mengemas kini pengetahuannya.
Bergantung pada pengawasan manusia
Termasuk pengawasan manusia boleh memberikan perlindungan kritikal. Apabila pakar manusia menyemak output, mereka boleh menangkap dan membetulkan sebarang kandungan ilusi melalui pertimbangan kontekstual.
Thought Prompt Chain
Thought Prompt Chain ialah teknologi yang membantu model kecerdasan buatan melakukan penaakulan pelbagai langkah dengan menyediakan rantaian pemikiran logik. Pendekatan ini boleh meningkatkan prestasi model kecerdasan buatan dalam tugasan seperti matematik.
Penguraian Tugas dan Ejen
Penguraian Tugas dan Ejen ialah kaedah untuk meningkatkan prestasi model kecerdasan buatan dengan memecahkan tugas yang kompleks kepada berbilang subtugas. Kaedah ini boleh mengambil kesempatan daripada kelebihan model kecerdasan buatan yang berbeza dan meningkatkan keupayaan penaakulan model kecerdasan buatan.
Halusinasi kecerdasan buatan adalah satu cabaran untuk pembangunan kecerdasan buatan, tetapi dengan mengambil langkah yang berkesan, risikonya dapat dikurangkan dengan berkesan.
Atas ialah kandungan terperinci Bagaimana untuk mengurangkan halusinasi model bahasa yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Jika anda telah memberi perhatian kepada seni bina model bahasa yang besar, anda mungkin pernah melihat istilah "SwiGLU" dalam model dan kertas penyelidikan terkini. SwiGLU boleh dikatakan sebagai fungsi pengaktifan yang paling biasa digunakan dalam model bahasa besar Kami akan memperkenalkannya secara terperinci dalam artikel ini. SwiGLU sebenarnya adalah fungsi pengaktifan yang dicadangkan oleh Google pada tahun 2020, yang menggabungkan ciri-ciri SWISH dan GLU. Nama penuh Cina SwiGLU ialah "unit linear berpagar dua arah". Ia mengoptimumkan dan menggabungkan dua fungsi pengaktifan, SWISH dan GLU, untuk meningkatkan keupayaan ekspresi tak linear model. SWISH ialah fungsi pengaktifan yang sangat biasa yang digunakan secara meluas dalam model bahasa besar, manakala GLU telah menunjukkan prestasi yang baik dalam tugas pemprosesan bahasa semula jadi.

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Memandangkan prestasi model bahasa berskala besar sumber terbuka terus bertambah baik, prestasi dalam penulisan dan analisis kod, pengesyoran, ringkasan teks dan pasangan menjawab soalan (QA) semuanya bertambah baik. Tetapi apabila ia berkaitan dengan QA, LLM sering gagal dalam isu yang berkaitan dengan data yang tidak terlatih, dan banyak dokumen dalaman disimpan dalam syarikat untuk memastikan pematuhan, rahsia perdagangan atau privasi. Apabila dokumen ini disoal, LLM boleh berhalusinasi dan menghasilkan kandungan yang tidak relevan, rekaan atau tidak konsisten. Satu teknik yang mungkin untuk menangani cabaran ini ialah Retrieval Augmented Generation (RAG). Ia melibatkan proses meningkatkan respons dengan merujuk pangkalan pengetahuan berwibawa di luar sumber data latihan untuk meningkatkan kualiti dan ketepatan penjanaan. Sistem RAG termasuk sistem mendapatkan semula untuk mendapatkan serpihan dokumen yang berkaitan daripada korpus

2024 ialah tahun pembangunan pesat untuk model bahasa besar (LLM). Dalam latihan LLM, kaedah penjajaran ialah cara teknikal yang penting, termasuk penyeliaan penalaan halus (SFT) dan pembelajaran pengukuhan dengan maklum balas manusia (RLHF) yang bergantung pada pilihan manusia. Kaedah ini telah memainkan peranan penting dalam pembangunan LLM, tetapi kaedah penjajaran memerlukan sejumlah besar data beranotasi secara manual. Menghadapi cabaran ini, penalaan halus telah menjadi bidang penyelidikan yang rancak, dengan para penyelidik giat berusaha untuk membangunkan kaedah yang boleh mengeksploitasi data manusia dengan berkesan. Oleh itu, pembangunan kaedah penjajaran akan menggalakkan lagi kejayaan dalam teknologi LLM. Universiti California baru-baru ini menjalankan kajian yang memperkenalkan teknologi baharu yang dipanggil SPIN (SelfPlayfInetuNing). S

Halusinasi adalah masalah biasa apabila bekerja dengan model bahasa besar (LLM). Walaupun LLM boleh menjana teks yang lancar dan koheren, maklumat yang dijananya selalunya tidak tepat atau tidak konsisten. Untuk mengelakkan LLM daripada halusinasi, sumber pengetahuan luaran, seperti pangkalan data atau graf pengetahuan, boleh digunakan untuk memberikan maklumat fakta. Dengan cara ini, LLM boleh bergantung pada sumber data yang boleh dipercayai ini, menghasilkan kandungan teks yang lebih tepat dan boleh dipercayai. Pangkalan Data Vektor dan Graf Pengetahuan Pangkalan Data Vektor Pangkalan data vektor ialah satu set vektor berdimensi tinggi yang mewakili entiti atau konsep. Ia boleh digunakan untuk mengukur persamaan atau korelasi antara entiti atau konsep yang berbeza, dikira melalui perwakilan vektornya. Pangkalan data vektor boleh memberitahu anda, berdasarkan jarak vektor, bahawa "Paris" dan "Perancis" lebih dekat daripada "Paris" dan

Apabila model bahasa berskala ke skala yang belum pernah berlaku sebelum ini, penalaan halus menyeluruh untuk tugas hiliran menjadi sangat mahal. Bagi menyelesaikan masalah ini, penyelidik mula memberi perhatian dan mengamalkan kaedah PEFT. Idea utama kaedah PEFT adalah untuk mengehadkan skop penalaan halus kepada set kecil parameter untuk mengurangkan kos pengiraan sambil masih mencapai prestasi terkini dalam tugas pemahaman bahasa semula jadi. Dengan cara ini, penyelidik boleh menjimatkan sumber pengkomputeran sambil mengekalkan prestasi tinggi, membawa tempat tumpuan penyelidikan baharu ke bidang pemprosesan bahasa semula jadi. RoSA ialah teknik PEFT baharu yang, melalui eksperimen pada satu set penanda aras, didapati mengatasi prestasi penyesuaian peringkat rendah (LoRA) sebelumnya dan kaedah penalaan halus tulen yang jarang menggunakan belanjawan parameter yang sama. Artikel ini akan pergi secara mendalam

Perhatian Pertanyaan Berkumpulan (GroupedQueryAttention) ialah kaedah perhatian berbilang pertanyaan dalam model bahasa besar Matlamatnya adalah untuk mencapai kualiti MHA sambil mengekalkan kelajuan MQA. GroupedQueryAttention kumpulan pertanyaan, dan pertanyaan dalam setiap kumpulan berkongsi berat perhatian yang sama, yang membantu mengurangkan kerumitan pengiraan dan meningkatkan kelajuan inferens. Dalam artikel ini, kami akan menerangkan idea GQA dan cara menterjemahkannya ke dalam kod. GQA ada dalam kertas GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-HeadCheckpoint

Kemunculan model bahasa besar (LLM) telah merangsang inovasi dalam pelbagai bidang. Walau bagaimanapun, peningkatan kerumitan gesaan, didorong oleh strategi seperti gesaan rantaian pemikiran (CoT) dan pembelajaran kontekstual (ICL), menimbulkan cabaran pengiraan. Gesaan yang panjang ini memerlukan sumber yang besar untuk membuat penaakulan dan oleh itu memerlukan penyelesaian yang cekap. Artikel ini akan memperkenalkan penyepaduan LLMLingua dan LlamaIndex proprietari untuk melaksanakan penaakulan yang cekap ialah kertas kerja yang diterbitkan oleh penyelidik Microsoft di EMNLP2023 LongLLMLingua ialah kaedah yang meningkatkan keupayaan llm untuk melihat maklumat penting dalam senario konteks yang panjang melalui pemampatan pantas. LLMLingua dan llamindex
