Bagaimana untuk menjalankan penilaian LLM berdasarkan Arthur Bench?
Hello semua, saya Luga, hari ini kita akan bercakap tentang teknologi yang berkaitan dengan bidang ekologi kecerdasan buatan (AI) - penilaian LLM.
1. Cabaran yang dihadapi oleh penilaian teks tradisional
Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat dan peningkatan model bahasa besar (LLM), kaedah penilaian teks tradisional mungkin tidak lagi digunakan dalam beberapa aspek. Dalam bidang penilaian teks, kita mungkin pernah mendengar kaedah seperti kaedah penilaian berasaskan "kejadian perkataan", seperti BLEU dan kaedah penilaian berasaskan "model pemprosesan bahasa semula jadi yang telah terlatih", seperti BERTScore.
Walaupun kaedah ini telah menunjukkan prestasi yang baik pada masa lalu, dengan pembangunan berterusan teknologi ekologi LLM, mereka nampaknya sedikit tidak dapat memenuhi keperluan semasa sepenuhnya.
Dengan perkembangan pesat dan peningkatan berterusan teknologi LLM, kami menghadapi cabaran dan peluang baharu. LLM terus bertambah baik dalam tahap keupayaan dan prestasi, yang menjadikan kaedah penilaian berasaskan kekerapan perkataan (seperti BLEU) berpotensi tidak dapat menangkap sepenuhnya kualiti dan ketepatan semantik teks yang dijana LLM. LLM boleh menjana teks yang lebih fasih, koheren dan kaya semantik, manakala kaedah penilaian berasaskan kekerapan perkataan tradisional sukar untuk menilai kelebihan ini dengan tepat.
Selain itu, kaedah penilaian berdasarkan model pra-latihan, seperti BERTScore, juga menghadapi beberapa cabaran. Walaupun model pra-latihan berfungsi dengan baik pada banyak tugas, mereka mungkin tidak mengambil kira sepenuhnya ciri khas LLM dan prestasinya pada tugas tertentu. LLM mungkin mempamerkan tingkah laku dan prestasi yang berbeza daripada model pra-latihan semasa mengendalikan tugasan tertentu, jadi bergantung semata-mata pada kaedah penilaian berdasarkan model pra-latihan mungkin tidak menilai sepenuhnya keupayaan LLM.
2. Mengapakah penilaian bimbingan LLM diperlukan? Dan apakah cabaran yang dibawanya
Secara umumnya, dalam persekitaran perniagaan sebenar, nilai kaedah LLM dicerminkan terutamanya dalam "kepantasan" dan "kepekaan". adalah Penunjuk penilaian yang paling penting.
1. Cekap
Pertama sekali, secara amnya, pelaksanaan lebih cepat. Berbanding dengan jumlah kerja yang diperlukan oleh saluran paip penilaian sebelumnya, mewujudkan pelaksanaan pertama penilaian berpandukan LLM adalah agak cepat dan mudah. Untuk penilaian berpandukan LLM, kami hanya perlu menyediakan dua perkara: terangkan kriteria penilaian dalam perkataan dan berikan beberapa contoh untuk digunakan dalam templat segera. Berbanding dengan jumlah kerja dan pengumpulan data yang diperlukan untuk membina model NLP terlatih anda sendiri (atau memperhalusi model NLP sedia ada) untuk berfungsi sebagai penganggar, menggunakan LLM untuk menyelesaikan tugasan ini adalah lebih cekap. Dengan LLM, lelaran kriteria penilaian adalah lebih pantas.
2. Sensitiviti
LLM biasanya menunjukkan kepekaan yang lebih tinggi. Kepekaan ini mungkin mempunyai sisi positifnya, kerana LLM lebih fleksibel dalam mengendalikan pelbagai situasi berbanding model NLP pra-latihan dan kaedah penilaian yang telah dibincangkan sebelum ini. Walau bagaimanapun, kepekaan yang tinggi ini juga boleh menyebabkan keputusan penilaian LLM sukar untuk diramalkan. Perubahan kecil dalam data input LLM boleh memberi kesan yang ketara, yang memungkinkan untuk mempamerkan turun naik yang lebih besar apabila memproses tugas tertentu. Oleh itu, semasa menilai LLM, perhatian khusus perlu diberikan kepada sensitivitinya untuk memastikan kestabilan dan kebolehpercayaan keputusan.
Seperti yang kita bincangkan sebelum ini, penilai LLM lebih sensitif berbanding kaedah penilaian lain. Terdapat banyak cara berbeza untuk mengkonfigurasi LLM sebagai penilai, dan tingkah lakunya boleh berbeza-beza bergantung pada konfigurasi yang dipilih. Sementara itu, cabaran lain ialah penilai LLM boleh tersekat jika penilaian melibatkan terlalu banyak langkah inferens atau memerlukan pemprosesan terlalu banyak pembolehubah secara serentak.
Disebabkan ciri-ciri LLM, keputusan penilaiannya mungkin dipengaruhi oleh konfigurasi dan tetapan parameter yang berbeza. Ini bermakna apabila menilai LLM, model perlu dipilih dan dikonfigurasikan dengan teliti untuk memastikan ia berkelakuan seperti yang diharapkan. Konfigurasi yang berbeza mungkin membawa kepada hasil output yang berbeza, jadi penilai perlu meluangkan sedikit masa dan usaha untuk melaraskan dan mengoptimumkan tetapan LLM untuk mendapatkan keputusan penilaian yang tepat dan boleh dipercayai.
Selain itu, penilai mungkin menghadapi beberapa cabaran apabila berhadapan dengan tugas penilaian yang memerlukan penaakulan kompleks atau pemprosesan berbilang pembolehubah secara serentak. Ini kerana keupayaan penaakulan LLM mungkin terhad apabila berhadapan dengan situasi yang kompleks. LLM mungkin memerlukan usaha tambahan untuk menangani tugas-tugas ini untuk memastikan ketepatan dan kebolehpercayaan penilaian.
3. Apakah Arthur Bench?
Arthur Bench ialah alat penilaian sumber terbuka yang digunakan untuk membandingkan prestasi model teks generatif (LLM). Ia boleh digunakan untuk menilai model, isyarat dan hiperparameter LLM yang berbeza dan menyediakan laporan terperinci tentang prestasi LLM pada pelbagai tugas.
Ciri utama Arthur Bench termasuk: Ciri utama Arthur Bench termasuk:
- Bandingkan model LLM yang berbeza: Arthur Bench boleh digunakan untuk membandingkan prestasi model LLM yang berbeza, termasuk model daripada vendor yang berbeza, versi model yang berbeza dan model yang menggunakan set data latihan yang berbeza.
- Menilai Petua: Arthur Bench boleh digunakan untuk menilai kesan petua berbeza pada prestasi LLM. Prompt ialah arahan yang digunakan untuk membimbing LLM dalam menjana teks.
- Menguji hiperparameter: Arthur Bench boleh digunakan untuk menguji kesan hiperparameter berbeza pada prestasi LLM. Hiperparameter ialah tetapan yang mengawal kelakuan LLM.
Secara amnya, aliran kerja Arthur Bench terutamanya melibatkan peringkat berikut, dan analisis terperinci adalah seperti berikut:
1 Definisi tugasan
Pada peringkat ini, kami perlu menjelaskan matlamat kami, Arthur Bangku Menyokong pelbagai tugas penilaian, termasuk:
- Soal Jawab: Uji keupayaan LLM untuk memahami dan menjawab soalan terbuka, mencabar atau samar-samar.
- Ringkasan: Nilai keupayaan LLM untuk mengekstrak maklumat penting daripada teks dan menjana ringkasan ringkas.
- Terjemahan: Periksa keupayaan LLM untuk menterjemah antara bahasa yang berbeza dengan tepat dan lancar.
- Penjanaan kod: Uji keupayaan LLM untuk menjana kod berdasarkan penerangan bahasa semula jadi.
2. Pemilihan model
Pada peringkat ini, kerja utama ialah memilih objek penilaian. Arthur Bench menyokong pelbagai model LLM, meliputi teknologi terkemuka daripada institusi terkenal seperti OpenAI, Google AI, Microsoft, dsb., seperti GPT-3, LaMDA, Megatron-Turing NLG, dsb. Kita boleh memilih model tertentu untuk penilaian berdasarkan keperluan penyelidikan.
3. Konfigurasi parameter
Selepas melengkapkan pemilihan model, langkah seterusnya ialah menjalankan kawalan yang diperhalusi. Untuk menilai prestasi LLM dengan lebih tepat, Arthur Bench membenarkan pengguna mengkonfigurasi pembayang dan hiperparameter.
- Petua: Bimbing LLM ke arah dan kandungan teks yang dijana, seperti soalan, penerangan atau arahan.
- Hiperparameter: tetapan utama yang mengawal tingkah laku LLM, seperti kadar pembelajaran, bilangan langkah latihan, seni bina model, dsb.
Melalui konfigurasi yang diperhalusi, kami boleh meneroka secara mendalam perbezaan prestasi LLM di bawah tetapan parameter yang berbeza dan mendapatkan hasil penilaian dengan lebih banyak nilai rujukan.
4. Larian penilaian: proses automatik
Langkah terakhir ialah menjalankan penilaian tugas dengan bantuan proses automatik. Biasanya, Arthur Bench menyediakan proses penilaian automatik yang memerlukan konfigurasi mudah untuk menjalankan tugas penilaian. Ia akan melakukan langkah berikut secara automatik:
- Panggil model LLM dan jana output teks.
- Untuk tugasan tertentu, gunakan penunjuk penilaian yang sepadan untuk analisis.
- Jana laporan terperinci dan bentangkan hasil penilaian.
4. Analisis senario penggunaan Arthur Bench
Sebagai kunci kepada penilaian LLM yang dipacu data, Arthur Bench terutamanya menyediakan penyelesaian berikut, khususnya yang melibatkan:
1 Pemilihan dan pengesahan Model
merupakan langkah penting dalam bidang kecerdasan buatan dan amat penting untuk memastikan kesahihan dan kebolehpercayaan model. Dalam proses ini, peranan Arthur Bench adalah penting. Matlamatnya adalah untuk menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai untuk membantu mereka membuat keputusan termaklum di antara banyak pilihan model bahasa besar (LLM) melalui penggunaan metrik dan kaedah penilaian yang konsisten.
Arthur Bench akan menggunakan kepakaran dan pengalamannya untuk menilai setiap pilihan LLM dan memastikan metrik yang konsisten digunakan untuk membandingkan kekuatan dan kelemahan mereka. Beliau akan mempertimbangkan faktor seperti prestasi model, ketepatan, kelajuan, keperluan sumber dan banyak lagi untuk memastikan syarikat boleh membuat pilihan yang termaklum dan jelas.
Dengan menggunakan metrik dan metodologi penilaian yang konsisten, Arthur Bench akan menyediakan syarikat rangka kerja perbandingan yang boleh dipercayai, membolehkan mereka menilai sepenuhnya faedah dan had setiap pilihan LLM. Ini akan membolehkan syarikat membuat keputusan termaklum untuk memaksimumkan kemajuan pesat dalam kecerdasan buatan dan memastikan pengalaman terbaik dengan aplikasi mereka.
2. Pengoptimuman Belanjawan dan Privasi
Apabila memilih model AI, tidak semua aplikasi memerlukan model bahasa besar (LLM) yang paling canggih atau mahal. Dalam sesetengah kes, keperluan misi boleh dipenuhi menggunakan model AI yang lebih murah.
Pendekatan pengoptimuman belanjawan ini boleh membantu syarikat membuat pilihan bijak dengan sumber yang terhad. Daripada memilih model yang paling mahal atau terkini, pilih model yang betul berdasarkan keperluan khusus anda. Model yang lebih mampu milik mungkin berprestasi lebih buruk sedikit daripada LLM tercanggih dalam beberapa aspek, tetapi untuk beberapa tugas mudah atau standard, Arthur Bench masih boleh menyediakan penyelesaian yang memenuhi keperluan.
Selain itu, Arthur Bench menekankan bahawa membawa model secara dalaman membolehkan kawalan yang lebih baik ke atas privasi data. Untuk aplikasi yang melibatkan data sensitif atau isu privasi, syarikat mungkin lebih suka menggunakan model terlatih dalaman mereka sendiri daripada bergantung pada LLM pihak ketiga luaran. Dengan menggunakan model dalaman, syarikat boleh memperoleh kawalan yang lebih besar ke atas pemprosesan dan penyimpanan data serta melindungi privasi data dengan lebih baik.
3. Terjemahkan tanda aras akademik kepada prestasi dunia sebenar
Tanda aras akademik merujuk kepada metrik dan kaedah penilaian model yang ditetapkan dalam penyelidikan akademik. Penunjuk dan kaedah ini biasanya khusus untuk tugas atau domain tertentu dan boleh menilai prestasi model dalam tugas atau domain itu dengan berkesan.
Walau bagaimanapun, penanda aras akademik tidak selalu mencerminkan prestasi model secara langsung dalam dunia sebenar. Ini kerana senario aplikasi dalam dunia nyata selalunya lebih kompleks dan memerlukan lebih banyak faktor untuk dipertimbangkan, seperti pengedaran data, persekitaran penggunaan model, dsb.
Arthur Bench membantu menterjemahkan tanda aras akademik kepada prestasi dunia sebenar. Ia mencapai matlamat ini dengan cara berikut:
- Menyediakan set petunjuk penilaian yang komprehensif meliputi pelbagai aspek ketepatan model, kecekapan, keteguhan, dsb. Penunjuk ini bukan sahaja dapat mencerminkan prestasi model di bawah penanda aras akademik, tetapi juga potensi prestasi model dalam dunia sebenar.
- Menyokong pelbagai jenis model dan boleh membandingkan pelbagai jenis model. Ini membolehkan perusahaan memilih model yang paling sesuai dengan senario aplikasi mereka.
- Menyediakan alat analisis visual untuk membantu syarikat memahami secara intuitif perbezaan prestasi model yang berbeza. Ini membolehkan perniagaan membuat keputusan dengan lebih mudah.
5. Analisis Ciri Arthur Bench
Sebagai kunci kepada penilaian LLM yang dipacu data yang pantas, Arthur Bench mempunyai ciri berikut:
1 Set penuh penunjuk pemarkahan
Arthur Bench mempunyai set pemarkahan yang lengkap penunjuk, meliputi segala-galanya daripada Ringkaskan semua aspek kualiti kepada pengalaman pengguna. Dia boleh menggunakan metrik pemarkahan ini pada bila-bila masa untuk menilai dan membandingkan model yang berbeza. Penggunaan gabungan metrik pemarkahan ini boleh membantunya memahami sepenuhnya kekuatan dan kelemahan setiap model.
Skop penunjuk pemarkahan ini sangat luas, termasuk tetapi tidak terhad kepada kualiti ringkasan, ketepatan, kelancaran, ketepatan tatabahasa, kebolehan memahami konteks, koheren logik, dsb. Arthur Bench akan menilai setiap model berdasarkan metrik ini dan menggabungkan hasilnya ke dalam skor komprehensif untuk membantu syarikat membuat keputusan termaklum.
Selain itu, jika syarikat mempunyai keperluan atau kebimbangan khusus, Arthur Bench juga boleh membuat dan menambah metrik pemarkahan tersuai berdasarkan keperluan syarikat. Ini dilakukan untuk memenuhi keperluan khusus syarikat dengan lebih baik dan memastikan proses penilaian adalah konsisten dengan matlamat dan piawaian syarikat. . Dengan cara ini, semua orang boleh menguasai dan mengawal sepenuhnya operasi Arthur Bench dan menyesuaikan serta mengkonfigurasinya mengikut keperluan mereka sendiri.
Sebaliknya, bagi pengguna yang lebih suka kemudahan dan fleksibiliti, produk SaaS berasaskan awan juga disediakan. Anda boleh memilih untuk mendaftar untuk mengakses dan menggunakan Arthur Bench melalui awan. Kaedah ini menghapuskan keperluan untuk pemasangan dan konfigurasi tempatan yang menyusahkan, dan membolehkan anda menikmati fungsi dan perkhidmatan yang disediakan dengan segera.
3. Sumber terbuka sepenuhnya
[1] https://github.com/arthur-ai/bench
[2] https://neurohive.io/en/news/arthur-bench-framework-for-evaluating- model bahasa/
Atas ialah kandungan terperinci Bagaimana untuk menjalankan penilaian LLM berdasarkan Arthur Bench?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Menurut berita dari laman web ini pada 5 Julai, GlobalFoundries mengeluarkan kenyataan akhbar pada 1 Julai tahun ini, mengumumkan pemerolehan teknologi power gallium nitride (GaN) Tagore Technology dan portfolio harta intelek, dengan harapan dapat mengembangkan bahagian pasarannya dalam kereta dan Internet of Things dan kawasan aplikasi pusat data kecerdasan buatan untuk meneroka kecekapan yang lebih tinggi dan prestasi yang lebih baik. Memandangkan teknologi seperti AI generatif terus berkembang dalam dunia digital, galium nitrida (GaN) telah menjadi penyelesaian utama untuk pengurusan kuasa yang mampan dan cekap, terutamanya dalam pusat data. Laman web ini memetik pengumuman rasmi bahawa semasa pengambilalihan ini, pasukan kejuruteraan Tagore Technology akan menyertai GLOBALFOUNDRIES untuk membangunkan lagi teknologi gallium nitride. G

Pada bila-bila masa, tumpuan adalah satu kebaikan. Pengarang |. Editor Tang Yitao |. AIPin yang paling popular telah menemui ulasan negatif yang belum pernah terjadi sebelumnya. Marques Brownlee (MKBHD) menyifatkannya sebagai produk terburuk yang pernah dia semak; Editor The Verge, David Pierce berkata dia tidak akan mengesyorkan sesiapa pun membeli peranti ini. Pesaingnya, RabbitR1, tidak jauh lebih baik. Keraguan terbesar tentang peranti AI ini ialah ia jelas hanya sebuah aplikasi, tetapi Arnab telah membina perkakasan bernilai $200. Ramai orang melihat inovasi perkakasan AI sebagai peluang untuk menumbangkan era telefon pintar dan menumpukan diri mereka kepadanya.

Tidak mustahil untuk menyelesaikan penukaran XML ke PDF secara langsung di telefon anda dengan satu aplikasi. Ia perlu menggunakan perkhidmatan awan, yang boleh dicapai melalui dua langkah: 1. Tukar XML ke PDF di awan, 2. Akses atau muat turun fail PDF yang ditukar pada telefon bimbit.

Editor |. ScienceAI Setahun yang lalu, Llion Jones, pengarang terakhir kertas Transformer Google, meninggalkan untuk memulakan perniagaan dan mengasaskan syarikat kecerdasan buatan SakanaAI dengan bekas penyelidik Google, David Ha. SakanaAI mendakwa mencipta model asas baharu berdasarkan kecerdasan yang diilhamkan oleh alam semula jadi! Kini, SakanaAI telah menyerahkan kertas jawapannya. SakanaAI mengumumkan pelancaran AIScientist, sistem AI pertama di dunia untuk penyelidikan saintifik automatik dan penemuan terbuka! Daripada mengandung, menulis kod, menjalankan eksperimen dan meringkaskan hasil, kepada menulis keseluruhan kertas kerja dan menjalankan ulasan rakan sebaya, AIScientist membuka kunci penyelidikan saintifik dan pecutan AI
