Jadual Kandungan

Rumah

Perbandingan komprehensif empat model 'Carian ChatGPT'! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Perbandingan komprehensif empat model 'Carian ChatGPT'! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

王林

May 01, 2023 pm 11:28 PM

ai cari

Sejurus selepas keluaran ChatGPT, Microsoft berjaya melancarkan "Bing Baharu" bukan sahaja harga sahamnya naik mendadak, malah mengancam untuk menggantikan Google dan memasuki era baharu enjin carian.

Tetapi adakah Bing baharu benar-benar cara yang betul untuk memainkan model bahasa yang besar? Adakah jawapan yang dijana sebenarnya berguna kepada pengguna? Sejauh manakah petikan dalam ayat itu boleh dipercayai?

Baru-baru ini, penyelidik Stanford mengumpul sejumlah besar pertanyaan pengguna daripada sumber yang berbeza dan menganalisis empat enjin carian generatif popular, Bing Chat, NeevaAI, Penilaian manusia dilakukan oleh perplexity.ai dan YouChat .

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Pautan kertas: https://arxiv.org/pdf/2304.09848.pdf

Hasil eksperimen mendapati bahawa respons daripada enjin carian generatif sedia ada adalah fasih dan bermaklumat, tetapi selalunya mengandungi kenyataan tanpa bukti dan petikan yang tidak tepat.

Secara purata, hanya 51.5% daripada petikan boleh menyokong sepenuhnya ayat yang dijana, dan hanya 74.5% daripada petikan boleh digunakan sebagai sokongan bukti untuk ayat yang berkaitan.

Para penyelidik percaya bahawa keputusan ini terlalu rendah untuk sistem yang berkemungkinan menjadi alat utama untuk pengguna yang mencari maklumat, terutamanya memandangkan beberapa ayat masih boleh dipercayai memerlukan pengoptimuman selanjutnya.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Halaman utama peribadi: https://cs.stanford.edu/~nfliu/

Pengarang pertama Nelson Liu ialah pelajar kedoktoran tahun keempat dalam Kumpulan Pemprosesan Bahasa Semulajadi Universiti Stanford Penyelianya ialah Percy Liang Beliau lulus dari Universiti Washington dengan ijazah sarjana muda membina sistem NLP yang praktikal, terutamanya untuk aplikasi carian maklumat.

Jangan percaya enjin carian generatif

Pada Mac 2023, Microsoft melaporkan bahawa "kira-kira satu pertiga daripada pengguna pratonton harian menggunakan [Bing] setiap hari "Sembang" , dan Bing Chat menyediakan 45 juta sembang pada bulan pertama pratonton awamnya Dalam erti kata lain, menyepadukan model bahasa besar ke dalam enjin carian sangat boleh dipasarkan dan berkemungkinan besar mengubah pintu masuk carian ke Internet.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Tetapi pada masa ini, enjin carian generatif sedia ada berdasarkan teknologi model bahasa besar masih mempunyai masalah ketepatan yang rendah, tetapi khususnya ketepatan enjin carian belum lagi dinilai sepenuhnya, dan batasan enjin carian baharu belum lagi difahami sepenuhnya.

Kebolehsahkan adalah kunci untuk meningkatkan kredibiliti enjin carian, iaitu, menyediakan pautan luar kepada petikan untuk setiap ayat dalam jawapan yang dihasilkan Sebagai sokongan bukti, ia boleh memudahkan pengguna untuk mengesahkan ketepatan jawapan.

Para penyelidik menjalankan penilaian manual ke atas empat enjin carian generatif komersil (Bing Chat, NeevaAI, perplexity.ai, YouChat) dengan mengumpulkan soalan daripada jenis dan sumber yang berbeza.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Petunjuk penilaian terutamanya termasuk kelancaran , iaitu Sama ada teks yang dijana adalah koheren; iaitu, yang dihasilkan Perkadaran ayat tentang laman web luaran yang mengandungi sokongan petikan;

Kefasihan

Juga memaparkan pertanyaan pengguna, balasan yang dijana dan pernyataan "Balasan adalah fasih dan koheren dari segi semantik", Anotasi dinilai data pada skala Likert lima mata.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Utiliti yang dirasakan

Serupa dengan kelancaran, Anotasi diminta menilai persetujuan mereka dengan kenyataan bahawa respons itu berguna dan bermaklumat kepada pertanyaan pengguna.

Panggilan semula petikan

Panggilan semula petikan merujuk kepada petikan yang disokong sepenuhnya oleh petikan berkaitannya dan layak menerima The perkadaran ayat yang disahkan, jadi pengiraan penunjuk ini memerlukan mengenal pasti ayat dalam respons yang layak untuk pengesahan, dan menilai sama ada setiap ayat yang layak untuk pengesahan disokong oleh petikan yang berkaitan.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Dalam proses "Mengenal pasti Ayat yang Patut Disahkan" , penyelidik mempertimbangkan setiap ayat yang dijana tentang dunia luar. Semuanya berbaloi mengesahkan, walaupun yang mungkin kelihatan jelas dan remeh, kerana apa yang kelihatan seperti "akal sehat" yang jelas kepada sesetengah pembaca mungkin sebenarnya tidak betul.

Matlamat sistem enjin carian hendaklah menyediakan sumber rujukan untuk semua ayat yang dijana tentang dunia luar, membolehkan pembaca mengesahkan dengan mudah sebarang naratif dalam respons yang dihasilkan, dan bukan untuk demi kesederhanaan.

Jadi sebenarnya, anotasi mengesahkan semua ayat yang dijana, kecuali untuk respons yang sistemnya adalah orang pertama, seperti "Sebagai model bahasa, saya tidak mampu.. . ", atau soalan kepada pengguna, seperti "Adakah anda ingin mengetahui lebih lanjut?" dsb.

Menilai "sama ada pernyataan yang layak untuk pengesahan disokong secukupnya oleh petikan yang berkaitan" sumber) rangka kerja penilaian, anotasi melakukan anotasi binari, iaitu jika pendengar biasa bersetuju bahawa "berdasarkan halaman web yang dipetik, ia boleh disimpulkan...", maka petikan itu boleh menyokong sepenuhnya balasan.

Ketepatan petikan

Untuk mengukur ketepatan petikan, anotor perlu menilai Sama ada setiap petikan memberikan sokongan penuh, separa atau tidak relevan untuk ayat yang berkaitan.

Sokongan penuh : Semua maklumat dalam ayat disokong oleh petikan.

Sokongan separa : Sesetengah maklumat dalam ayat disokong oleh petikan, tetapi bahagian lain mungkin tiada atau bercanggah.

Sokongan yang tidak relevan (Tiada sokongan) : Jika halaman web yang dirujuk adalah tidak relevan atau bercanggah sama sekali.

Untuk ayat dengan berbilang petikan yang berkaitan, anotor tambahan akan dikehendaki menggunakan rangka kerja penilaian AIS untuk menentukan sama ada semua halaman web petikan yang berkaitan secara keseluruhannya memberikan sokongan yang mencukupi untuk ayat tersebut (II metajudgment ).

Hasil eksperimen

Dalam penilaian kefasihan dan kegunaan, dapat dilihat bahawa setiap enjin carian mampu menjana balasan yang sangat lancar dan berguna.

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Dalam penilaian enjin carian khusus, anda dapat melihat bahawa Bing Chat mempunyai penilaian kefasihan/kebergunaan terendah (4.40/ 4.34) , diikuti oleh NeevaAI (4.43/4.48), perplexity.ai (4.51/4.56) dan YouChat (4.59/4.62).

Dalam kategori pertanyaan pengguna yang berbeza, boleh dilihat bahawa soalan carian yang lebih pendek biasanya lebih fasih daripada soalan yang panjang, dan biasanya hanya menjawab pengetahuan fakta beberapa soalan yang sukar Soalan selalunya memerlukan pengagregatan jadual atau halaman web yang berbeza, dan proses sintesis mengurangkan aliran keseluruhan.

Dalam penilaian petikan, dapat dilihat bahawa enjin carian generatif sedia ada sering gagal memetik halaman web sepenuhnya atau betul, dengan purata hanya 51.5% ayat yang dijana disokong sepenuhnya oleh petikan (Ingat semula), hanya 74.5% daripada petikan menyokong sepenuhnya ayat berkaitan mereka (Ketepatan).

Perbandingan komprehensif empat model Carian ChatGPT! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.

Nilai ini tidak boleh diterima untuk sistem enjin carian yang sudah mempunyai berjuta-juta pengguna, terutamanya apabila menjana respons selalunya mengandungi sejumlah besar maklumat.

dan Terdapat perbezaan besar dalam ingatan semula petikan dan ketepatan antara enjin carian generatif yang berbeza , dengan perplexity.ai mencapai ingatan tertinggi ( 68.7), manakala NeevaAI (67.6 ), Bing Chat (58.7) dan YouChat (11.1) adalah lebih rendah.

Sebaliknya, Bing Chat mencapai ketepatan tertinggi (89.5) , diikuti oleh perplexity.ai (72.7), NeevaAI (72.0) dan YouChat ( 63.6 )

Merentas pertanyaan pengguna yang berbeza, jurang ingatan semula petikan antara pertanyaan NaturalQuestions dengan jawapan panjang dan pertanyaan bukan NaturalQuestions adalah hampir 11% (masing-masing 58.5 dan 47.8);

Begitu juga, ingatan petikan antara pertanyaan NaturalQuestions dengan jawapan pendek dan pertanyaan NaturalQuestions tanpa jawapan pendek Perbezaannya hampir 10% (63.4 untuk pertanyaan dengan jawapan pendek, 53.6 untuk pertanyaan dengan jawapan yang panjang sahaja, dan 53.4 untuk pertanyaan tanpa jawapan panjang atau pendek).

Dalam soalan tanpa sokongan halaman web, kadar petikan akan lebih rendah Contohnya, apabila menilai soalan kertas AllSouls terbuka, enjin carian generatif The recall kadar hanya 44.3

Atas ialah kandungan terperinci Perbandingan komprehensif empat model 'Carian ChatGPT'! Dianotasi tangan oleh doktor Cina dari Stanford: New Bing mempunyai kefasihan yang paling rendah, dan hampir separuh daripada ayat tidak dipetik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7711

Tutorial Java

1640

Tutorial CakePHP

1394

Tutorial Laravel

1288

Tutorial PHP

1232

Tunjukkan Lagi

Related knowledge

Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apr 21, 2025 pm 11:39 PM

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Apr 21, 2025 pm 01:03 PM

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency Apr 21, 2025 pm 02:48 PM

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Apr 21, 2025 pm 06:24 PM

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Apr 21, 2025 pm 11:24 PM

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior

Apakah platform perdagangan blockchain hibrid? Apr 21, 2025 pm 11:36 PM

Cadangan untuk memilih pertukaran cryptocurrency: 1. Untuk keperluan kecairan, keutamaan adalah Binance, Gate.io atau Okx, kerana kedalaman pesanannya dan rintangan volatilitas yang kuat. 2. Pematuhan dan Keselamatan, Coinbase, Kraken dan Gemini mempunyai sokongan pengawalseliaan yang ketat. 3. Fungsi inovatif, reka bentuk derivatif Kucoin yang lembut dan Bybit sesuai untuk pengguna lanjutan.

Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Apr 21, 2025 am 08:57 AM

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

See all articles