Bagaimana untuk mengurangkan halusinasi model bahasa yang besar-AI-php.cn

Rumah

Peranti teknologi

Bagaimana untuk mengurangkan halusinasi model bahasa yang besar

DDD

Nov 03, 2023 am 10:47 AM

Model bahasa yang besar

Halusinasi

LLM ialah fenomena di mana model bahasa besar (LLM) menjana output yang tidak bermakna atau tidak tepat yang tidak mengikut corak atau objek sebenar. Output AI yang salah ini berpunca daripada pelbagai faktor, termasuk:

Overfitting: LLM mempelajari bunyi bising dan berat sebelah dalam data latihan sebagai corak, menyebabkan model menghasilkan output yang salah pada data ujian.
Kerumitan model yang tinggi: LLM mempunyai kerumitan model yang tinggi, yang membolehkan mereka melihat korelasi yang tidak wujud, dengan itu mencipta ilusi.

Syarikat utama yang membangunkan sistem AI generatif sedang mengambil langkah untuk menangani masalah halusinasi AI, walaupun sesetengah pakar percaya menghapuskan sepenuhnya keluaran yang salah mungkin mustahil.

Google menghubungkan modelnya ke Internet untuk melatih respons darat daripada data dan maklumat rangkaian, dengan itu mengurangkan pemasangan berlebihan.

OpenAI menggunakan maklum balas manusia dan pembelajaran pengukuhan untuk memperhalusi output ChatGPT. Mereka mencadangkan "penyeliaan proses" yang memberi ganjaran kepada model untuk langkah penaakulan yang betul, bukan hanya jawapan akhir. Ini boleh meningkatkan kebolehjelasan, tetapi ada yang mempersoalkan keberkesanannya terhadap fabrikasi.

Walaupun terdapat risiko halusinasi AI, syarikat dan pengguna masih boleh mengambil langkah untuk mengimbangi dan mengehadkan potensi bahaya mereka. Berikut ialah beberapa cara untuk menyelesaikannya:

Gunakan data latihan berkualiti tinggi

Menggunakan data latihan berkualiti tinggi adalah kunci untuk mengurangkan halusinasi AI. Data latihan berkualiti tinggi hendaklah pelbagai, seimbang, tersusun dengan baik dan mencerminkan situasi dunia sebenar.

Jelaskan Tujuan Penggunaan

Mentakrifkan dengan jelas tujuan khusus dan penggunaan yang dibenarkan bagi sistem AI boleh membantu menjauhkannya daripada kandungan halusinasi. Pembangun dan pengguna harus memahami dengan jelas fungsi dan kegunaan model kecerdasan buatan dan mematuhinya dengan tegas apabila menggunakannya.

Gunakan templat data untuk membimbing output kecerdasan buatan

Menggunakan templat data berstruktur boleh membantu model kecerdasan buatan menjana output yang mematuhi corak yang dijangkakan. Templat ini menyediakan format yang konsisten untuk input data ke dalam model dan mengehadkan skop inferens model.

Limit Reaction

Menetapkan kekangan dan had pada potensi keluaran model boleh mengurangkan spekulasi yang tidak terkawal. Sebagai contoh, anda boleh menentukan ambang kebarangkalian yang jelas dan menggunakan alat penapisan untuk menapis respons yang tidak memenuhi jangkaan.

Menguji dan menambah baik sistem secara berterusan

Melalui ujian menyeluruh dan pemantauan berterusan, prestasi sistem kecerdasan buatan boleh dipertingkatkan secara berterusan. Menilai output boleh mengenal pasti kawasan yang memerlukan tweaker, manakala data baharu boleh digunakan untuk melatih semula model dan mengemas kini pengetahuannya.

Bergantung pada pengawasan manusia

Termasuk pengawasan manusia boleh memberikan perlindungan kritikal. Apabila pakar manusia menyemak output, mereka boleh menangkap dan membetulkan sebarang kandungan ilusi melalui pertimbangan kontekstual.

Thought Prompt Chain

Thought Prompt Chain ialah teknologi yang membantu model kecerdasan buatan melakukan penaakulan pelbagai langkah dengan menyediakan rantaian pemikiran logik. Pendekatan ini boleh meningkatkan prestasi model kecerdasan buatan dalam tugasan seperti matematik.

Penguraian Tugas dan Ejen

Penguraian Tugas dan Ejen ialah kaedah untuk meningkatkan prestasi model kecerdasan buatan dengan memecahkan tugas yang kompleks kepada berbilang subtugas. Kaedah ini boleh mengambil kesempatan daripada kelebihan model kecerdasan buatan yang berbeza dan meningkatkan keupayaan penaakulan model kecerdasan buatan.

Halusinasi kecerdasan buatan adalah satu cabaran untuk pembangunan kecerdasan buatan, tetapi dengan mengambil langkah yang berkesan, risikonya dapat dikurangkan dengan berkesan.

Atas ialah kandungan terperinci Bagaimana untuk mengurangkan halusinasi model bahasa yang besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7548

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Mengapakah model bahasa besar menggunakan SwiGLU sebagai fungsi pengaktifan? Apr 08, 2024 pm 09:31 PM

Jika anda telah memberi perhatian kepada seni bina model bahasa yang besar, anda mungkin pernah melihat istilah "SwiGLU" dalam model dan kertas penyelidikan terkini. SwiGLU boleh dikatakan sebagai fungsi pengaktifan yang paling biasa digunakan dalam model bahasa besar Kami akan memperkenalkannya secara terperinci dalam artikel ini. SwiGLU sebenarnya adalah fungsi pengaktifan yang dicadangkan oleh Google pada tahun 2020, yang menggabungkan ciri-ciri SWISH dan GLU. Nama penuh Cina SwiGLU ialah "unit linear berpagar dua arah". Ia mengoptimumkan dan menggabungkan dua fungsi pengaktifan, SWISH dan GLU, untuk meningkatkan keupayaan ekspresi tak linear model. SWISH ialah fungsi pengaktifan yang sangat biasa yang digunakan secara meluas dalam model bahasa besar, manakala GLU telah menunjukkan prestasi yang baik dalam tugas pemprosesan bahasa semula jadi.

Bolehkah penalaan halus benar-benar membolehkan LLM mempelajari perkara baharu: memperkenalkan pengetahuan baharu boleh menjadikan model menghasilkan lebih banyak halusinasi Jun 11, 2024 pm 03:57 PM

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Visualisasikan ruang vektor FAISS dan laraskan parameter RAG untuk meningkatkan ketepatan hasil Mar 01, 2024 pm 09:16 PM

Memandangkan prestasi model bahasa berskala besar sumber terbuka terus bertambah baik, prestasi dalam penulisan dan analisis kod, pengesyoran, ringkasan teks dan pasangan menjawab soalan (QA) semuanya bertambah baik. Tetapi apabila ia berkaitan dengan QA, LLM sering gagal dalam isu yang berkaitan dengan data yang tidak terlatih, dan banyak dokumen dalaman disimpan dalam syarikat untuk memastikan pematuhan, rahsia perdagangan atau privasi. Apabila dokumen ini disoal, LLM boleh berhalusinasi dan menghasilkan kandungan yang tidak relevan, rekaan atau tidak konsisten. Satu teknik yang mungkin untuk menangani cabaran ini ialah Retrieval Augmented Generation (RAG). Ia melibatkan proses meningkatkan respons dengan merujuk pangkalan pengetahuan berwibawa di luar sumber data latihan untuk meningkatkan kualiti dan ketepatan penjanaan. Sistem RAG termasuk sistem mendapatkan semula untuk mendapatkan serpihan dokumen yang berkaitan daripada korpus

Pengoptimuman LLM menggunakan teknologi SPIN untuk latihan penalaan halus permainan sendiri Jan 25, 2024 pm 12:21 PM

2024 ialah tahun pembangunan pesat untuk model bahasa besar (LLM). Dalam latihan LLM, kaedah penjajaran ialah cara teknikal yang penting, termasuk penyeliaan penalaan halus (SFT) dan pembelajaran pengukuhan dengan maklum balas manusia (RLHF) yang bergantung pada pilihan manusia. Kaedah ini telah memainkan peranan penting dalam pembangunan LLM, tetapi kaedah penjajaran memerlukan sejumlah besar data beranotasi secara manual. Menghadapi cabaran ini, penalaan halus telah menjadi bidang penyelidikan yang rancak, dengan para penyelidik giat berusaha untuk membangunkan kaedah yang boleh mengeksploitasi data manusia dengan berkesan. Oleh itu, pembangunan kaedah penjajaran akan menggalakkan lagi kejayaan dalam teknologi LLM. Universiti California baru-baru ini menjalankan kajian yang memperkenalkan teknologi baharu yang dipanggil SPIN (SelfPlayfInetuNing). S

Menggunakan graf pengetahuan untuk meningkatkan keupayaan model RAG dan mengurangkan tanggapan palsu model besar Jan 14, 2024 pm 06:30 PM

Halusinasi adalah masalah biasa apabila bekerja dengan model bahasa besar (LLM). Walaupun LLM boleh menjana teks yang lancar dan koheren, maklumat yang dijananya selalunya tidak tepat atau tidak konsisten. Untuk mengelakkan LLM daripada halusinasi, sumber pengetahuan luaran, seperti pangkalan data atau graf pengetahuan, boleh digunakan untuk memberikan maklumat fakta. Dengan cara ini, LLM boleh bergantung pada sumber data yang boleh dipercayai ini, menghasilkan kandungan teks yang lebih tepat dan boleh dipercayai. Pangkalan Data Vektor dan Graf Pengetahuan Pangkalan Data Vektor Pangkalan data vektor ialah satu set vektor berdimensi tinggi yang mewakili entiti atau konsep. Ia boleh digunakan untuk mengukur persamaan atau korelasi antara entiti atau konsep yang berbeza, dikira melalui perwakilan vektornya. Pangkalan data vektor boleh memberitahu anda, berdasarkan jarak vektor, bahawa "Paris" dan "Perancis" lebih dekat daripada "Paris" dan

RoSA: Kaedah baharu untuk penalaan halus parameter model besar yang cekap Jan 18, 2024 pm 05:27 PM

Apabila model bahasa berskala ke skala yang belum pernah berlaku sebelum ini, penalaan halus menyeluruh untuk tugas hiliran menjadi sangat mahal. Bagi menyelesaikan masalah ini, penyelidik mula memberi perhatian dan mengamalkan kaedah PEFT. Idea utama kaedah PEFT adalah untuk mengehadkan skop penalaan halus kepada set kecil parameter untuk mengurangkan kos pengiraan sambil masih mencapai prestasi terkini dalam tugas pemahaman bahasa semula jadi. Dengan cara ini, penyelidik boleh menjimatkan sumber pengkomputeran sambil mengekalkan prestasi tinggi, membawa tempat tumpuan penyelidikan baharu ke bidang pemprosesan bahasa semula jadi. RoSA ialah teknik PEFT baharu yang, melalui eksperimen pada satu set penanda aras, didapati mengatasi prestasi penyesuaian peringkat rendah (LoRA) sebelumnya dan kaedah penalaan halus tulen yang jarang menggunakan belanjawan parameter yang sama. Artikel ini akan pergi secara mendalam

Penjelasan terperinci tentang GQA, mekanisme perhatian yang biasa digunakan dalam model besar, dan pelaksanaan kod Pytorch Apr 03, 2024 pm 05:40 PM

Perhatian Pertanyaan Berkumpulan (GroupedQueryAttention) ialah kaedah perhatian berbilang pertanyaan dalam model bahasa besar Matlamatnya adalah untuk mencapai kualiti MHA sambil mengekalkan kelajuan MQA. GroupedQueryAttention kumpulan pertanyaan, dan pertanyaan dalam setiap kumpulan berkongsi berat perhatian yang sama, yang membantu mengurangkan kerumitan pengiraan dan meningkatkan kelajuan inferens. Dalam artikel ini, kami akan menerangkan idea GQA dan cara menterjemahkannya ke dalam kod. GQA ada dalam kertas GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-HeadCheckpoint

LLMLingua: Sepadukan LlamaIndex, mampatkan petunjuk dan menyediakan perkhidmatan inferens model bahasa besar yang cekap Nov 27, 2023 pm 05:13 PM

Kemunculan model bahasa besar (LLM) telah merangsang inovasi dalam pelbagai bidang. Walau bagaimanapun, peningkatan kerumitan gesaan, didorong oleh strategi seperti gesaan rantaian pemikiran (CoT) dan pembelajaran kontekstual (ICL), menimbulkan cabaran pengiraan. Gesaan yang panjang ini memerlukan sumber yang besar untuk membuat penaakulan dan oleh itu memerlukan penyelesaian yang cekap. Artikel ini akan memperkenalkan penyepaduan LLMLingua dan LlamaIndex proprietari untuk melaksanakan penaakulan yang cekap ialah kertas kerja yang diterbitkan oleh penyelidik Microsoft di EMNLP2023 LongLLMLingua ialah kaedah yang meningkatkan keupayaan llm untuk melihat maklumat penting dalam senario konteks yang panjang melalui pemampatan pantas. LLMLingua dan llamindex

See all articles