


GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4
Bolehkah GPT-4 lulus ujian Turing?
Apabila model yang cukup berkuasa dilahirkan, orang sering menggunakan ujian Turing untuk mengukur kecerdasan LLM ini.
Baru-baru ini, penyelidik dari Jabatan Sains Kognitif di UCSD menemui:
Dalam Ujian Turing, orang ramai tidak dapat membezakan GPT-4 daripada manusia!
Alamat kertas: https://arxiv.org/pdf/2405.08007
Dalam ujian Turing, GPT-4 dinilai sebagai manusia 54% daripada masa itu.
Hasil percubaan menunjukkan bahawa ini adalah kali pertama sistem telah diluluskan secara empirik dalam ujian Turing dua orang "interaktif".
Penyelidik Cameron R. Jones telah mengambil 500 sukarelawan, yang dibahagikan kepada 5 peranan: 4 penilai iaitu GPT-4, GPT-3.5, ELIZA dan manusia, dan satu lagi peranan Just "act" sebagai manusia. , bersembunyi di sisi lain skrin, menunggu penilai menemuinya.
Berikut ialah petikan daripada permainan ini. Bolehkah anda tahu kotak dialog yang manakah adalah manusia?
Rajah 1: Sebahagian daripada perbualan antara penyiasat manusia (hijau) dan saksi (kelabu)
Malah, di antara empat perbualan ini, satu perbualan dengan saksi manusia, dan selebihnya ialah Perbualan dengan kecerdasan buatan.
"Ujian Turing" terkawal dilancarkan buat kali pertama
Dalam 74 tahun yang lalu, orang ramai telah membuat banyak percubaan pada ujian Turing, tetapi sedikit percubaan terkawal telah dijalankan.
Anugerah Loebner yang terkenal adalah pertandingan tahunan Namun, sejak kali pertama diadakan pada tahun 1990 hingga 2020, tiada sistem yang lulus ujian.
Kajian berskala besar baru-baru ini mendapati bahawa manusia boleh mengenali satu siri LLM dengan ketepatan 60% dalam perbualan dalam talian selama 2 minit.
Sehingga kini, tiada demonstrasi eksperimen "terkawal" di mana mana-mana mesin telah lulus ujian.
Untuk menguji sama ada orang boleh melihat melalui penipuan sistem AI semasa, penyelidik menggunakan GPT-4 untuk menjalankan ujian Turing dua orang yang dikawal secara rawak.
Keperluan ujian adalah sangat mudah, iaitu peserta manusia memulakan perbualan selama 5 minit dengan manusia dan kecerdasan buatan, dan menentukan sama ada lawan bicara adalah manusia.
Seperti yang dinyatakan pada mulanya, penyelidik menilai sejumlah 3 model - GPT-4, GPT-3.5 dan ELIZA.
Untuk dua LLM pertama, para penyelidik menyesuaikan pembayang berprestasi terbaik daripada kajian penerokaan GPT-4 dan GPT-3.5 untuk mengarahkan model besar cara bertindak balas terhadap mesej.
Satu cabaran utama dalam mentafsir ujian Turing, kata penyelidik, ialah prestasi cemerlang sistem mungkin berpunca daripada dua sebab:
- Pertama, ia adalah tiruan manusia yang baik
, kedua, hakim terlalu mudah tertipu
Situasi terakhir ini sering dipanggil kesan ELIZA, iaitu, peserta akan memanusiakan sistem yang mudah sekalipun.
Sistem ELIZA sangat dikenali oleh semua orang.
Ia adalah chatbot berasaskan peraturan yang ringkas dari tahun 1960-an, tetapi pengguna mendapati diri mereka mengaitkan ciri manusia kepadanya juga.
Oleh itu, dalam eksperimen, penyelidik menggunakan ELIZA sebagai garis dasar, di satu pihak untuk mengukur kesan ELIZA secara empirik, dan di sisi lain untuk menjalankan semakan operasi dalam eksperimen.
Jadi, apakah keputusan khusus ujian Turing ini?
Kadar lulus GPT-4 54%
Pertama lihat penunjuk penting: kadar lulus.
Para penyelidik mentakrifkan kadar hantaran sebagai perkadaran objek penilaian dalam permainan yang dinilai sebagai manusia oleh penilai.
Kadar lulus GPT-4 ialah 54%, melebihi GPT-3.5 (50%) dan garis dasar ELIZA (22%), tetapi lebih rendah daripada subjek manusia (67%).
Kadar lulus penilai (kiri) dan kepercayaan penilai (kanan). Setiap titik dalam gambar di sebelah kanan mewakili permainan
Hasil ini sebenarnya tidak mengejutkan dan pada asasnya konsisten dengan andaian pada peringkat awal penyelidikan.
Sebelum eksperimen, para penyelidik membuat beberapa andaian: Pertama, diandaikan bahawa keupayaan manusia untuk mengesan GPT-4 tidak akan melebihi peluang (50%).
Untuk mengesahkan ini, penyelidik menyesuaikan model regresi logistik untuk meramalkan kadar lulus hanya pintasan.
Tiada perbezaan ketara antara pintasan dan 0 (z=0.14, p=0.482), yang menunjukkan bahawa kadar lulus GPT-4 boleh lebih kurang sama dengan 50%. Model Bayesian meramalkan selang keyakinan 95% untuk pintasan GPT-4 sebanyak -0.24-0.55 (bersamaan dengan kadar lulus 44%-63%).
Ini bermakna apabila berhadapan dengan GPT-4, kebarangkalian kejayaan diskriminasi oleh manusia adalah lebih kurang sama seperti melambung syiling!
Hasilnya juga mengesahkan hipotesis kedua dan ketiga penyelidik: kadar lulus manusia adalah jauh lebih tinggi daripada kadar lulus GPT-4 (z=2.42, p=0.017), manakala kadar lulus GPT-4 lebih tinggi. kadar lulus ELIZA (z=4.11, p
Namun, apa yang tidak konsisten dengan andaian eksperimen penyelidik ialah prestasi GPT-4 dan GPT-3.5 adalah hampir sama (z=0.497, p=0.619).
Dalam bidang "berpura-pura menjadi manusia", ia adalah seri.
Juga menghairankan, peserta yang melaporkan pemahaman yang lebih baik tentang cara LLM berfungsi tidak lebih berjaya dalam mengenal pasti LLM (z = -0.023, p = 0.869).
Dalam analisis penerokaan, penyelidik mendapati bahawa umur mempunyai kesan negatif terhadap ketepatan penyiasat (z = -2.24, p = 0.025), tetapi pembolehubah demografi lain termasuk jantina, tahap pendidikan dan interaksi dengan kekerapan interaksi chatbot ) tidak mempunyai kesan yang ketara.
Kenapa begini hasilnya? Mari kita analisa sebab di sebaliknya.
Untuk mendapatkan pandangan tentang perkara yang sebenarnya mempengaruhi keputusan penilai, kami mengkategorikan strategi yang digunakan oleh penilai dan sebab yang mereka berikan untuk keputusan mereka.
36% daripada penilai akan berbual dengan sasaran penilaian dan bertanya tentang beberapa butiran peribadi atau aktiviti harian.
Strategi yang paling biasa dalam kategori kedua dan ketiga ialah sosial dan emosi (25%) – contohnya, bertanya tentang pendapat dan pengalaman penilai dan memerhati sama ada mereka mempunyai rasa jenaka.
Yang lain menumpukan pada pengetahuan dan penaakulan (13%), termasuk soalan tentang matematik, logik dan pengetahuan am.
Strategi bertanya (kiri) dan ketepatan purata (kanan)
Untuk membandingkan keberkesanan setiap strategi, penyelidik mengira purata ketepatan menggunakan strategi ini.
Apabila penilai bertanya kepada orang lain tentang pengalaman manusia (75%), logik dan matematik (78%), atau secara langsung "menuduh" orang lain itu mempunyai kecerdasan buatan (80%), mereka biasanya lebih dekat dengan " jawapan yang betul".
Dalam permainan, sebab kecerdasan buatan "menunjukkan kelemahannya" biasanya kerana penilai merasakan bahawa mereka seolah-olah memaksa diri untuk memainkan peranan, sama ada terlalu bersahaja atau kurang personaliti.
Dan ELIZA mudah "terdedah", terutamanya disebabkan oleh reaksi luar tabii dan kekurangan kesedaran kontekstual.
Dapat dilihat bahawa kedua-dua dari segi strategi yang digunakan dan sebab untuk membuat keputusan oleh sukarelawan yang mengambil bahagian dalam permainan, mereka memberi lebih perhatian kepada gaya bahasa dan faktor sosio-emosi berbanding kategori intelektual yang lebih tradisional ( pengetahuan dan penaakulan).
Ini nampaknya mencerminkan andaian asas sukarelawan - kecerdasan sosial ialah ciri manusia yang paling tidak dapat ditandingi untuk AI.
Ujian Turing, lulus
Bagaimana untuk mengetahui apabila sistem telah lulus ujian Turing?
Turing meramalkan dalam kertas kerjanya pada tahun 1950 bahawa menjelang akhir abad ini, sistem AI akan dapat memainkan permainan tiruan dengan begitu baik sehingga pemeriksa tidak mempunyai lebih daripada 70 peluang untuk membuat pengenalan yang betul selepas 5- pertukaran minit %.
Kesimpulan ini telah membawa kepada sama ada kadar kelulusan AI boleh mencapai 30%, yang menjadi sasaran perbincangan ramai penyelidik.
Walau bagaimanapun, penanda aras ini kelihatan sewenang-wenangnya, dan tidak jelas sama ada Turing memaksudkannya sebagai takrif kejayaan.
Malah, garis dasar 50% lebih munasabah kerana ia lebih membuktikan bahawa pengulas manusia tidak lebih baik daripada peluang untuk mengenal pasti AI.
Takrifan ini amat relevan dengan matlamat untuk mengetahui sama ada pengguna boleh mengenal pasti manusia lain dengan pasti semasa interaksi dalam talian.
Dalam analisis pra-awam penyelidik, isu ini telah ditangani dengan menggunakan garis dasar ELIZA sebagai semakan manipulasi.
Hanya apabila analisis menunjukkan bahawa kadar lulus ELIZA adalah lebih rendah daripada kebarangkalian dan kadar lulus GPT-4 tidak lebih rendah daripada kebarangkalian, model itu boleh dinilai telah lulus ujian.
Mengikut takrifan ini, GPT-4 jelas lulus versi ujian Turing ini.
Selain itu, markah keyakinan peserta dan asas membuat keputusan menunjukkan bahawa mereka tidak meneka secara rawak: GPT-4 mempunyai purata tahap keyakinan manusia sebanyak 73% (lihat Rajah 2). . Walau bagaimanapun, hakikat bahawa AI hampir selalu boleh "menipu" manusia agak membimbangkan.
Ada yang kata mereka ragu-ragu dengan ujian sebegini. Kerana GPT-4 akan mengatasi kebanyakan manusia, mudah untuk membezakan siapa manusia dan siapa kecerdasan buatan.
Para penyelidik mengatakan bahawa ini sememangnya masalah yang kami hadapi. Sebagai contoh, rizab pengetahuan GPT-4 adalah "terlalu kaya" atau ia menguasai terlalu banyak bahasa. Kami secara eksplisit menggesa model untuk mengelakkan situasi ini, yang berkesan pada tahap tertentu.
Atas ialah kandungan terperinci GPT-4 lulus ujian Turing dengan kadar kemenangan 54%! Kerja baharu UCSD: Manusia tidak dapat mengenali GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Mengenai Llama3, keputusan ujian baharu telah dikeluarkan - komuniti penilaian model besar LMSYS mengeluarkan senarai kedudukan model besar Llama3 menduduki tempat kelima, dan terikat untuk tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris. Gambar ini berbeza daripada Penanda Aras yang lain Senarai ini berdasarkan pertempuran satu lawan satu antara model, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri. Pada akhirnya, Llama3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude3 Super Cup Opus yang berbeza. Dalam senarai tunggal Inggeris, Llama3 mengatasi Claude dan terikat dengan GPT-4. Mengenai keputusan ini, ketua saintis Meta LeCun sangat gembira, tweet semula dan

Apakah pendapat anda tentang furmark? 1. Tetapkan "Mod Jalankan" dan "Mod Paparan" dalam antara muka utama, dan juga laraskan "Mod Ujian" dan klik butang "Mula". 2. Selepas menunggu seketika, anda akan melihat keputusan ujian, termasuk pelbagai parameter kad grafik. Bagaimanakah furmark layak? 1. Gunakan mesin pembakar furmark dan semak hasilnya selama kira-kira setengah jam Ia pada asasnya berlegar sekitar 85 darjah, dengan puncak 87 darjah dan suhu bilik 19 darjah. Casis besar, 5 port kipas casis, dua di hadapan, dua di atas, dan satu di belakang, tetapi hanya satu kipas dipasang. Semua aksesori tidak overclock. 2. Dalam keadaan biasa, suhu biasa kad grafik hendaklah antara "30-85℃". 3. Walaupun suhu ambien terlalu tinggi pada musim panas, suhu biasa ialah "50-85℃"

Robot humanoid Ameca telah dinaik taraf kepada generasi kedua! Baru-baru ini, di Persidangan Komunikasi Mudah Alih Sedunia MWC2024, robot Ameca paling canggih di dunia muncul semula. Di sekitar venue, Ameca menarik sejumlah besar penonton. Dengan restu GPT-4, Ameca boleh bertindak balas terhadap pelbagai masalah dalam masa nyata. "Jom kita menari." Apabila ditanya sama ada dia mempunyai emosi, Ameca menjawab dengan beberapa siri mimik muka yang kelihatan sangat hidup. Hanya beberapa hari yang lalu, EngineeredArts, syarikat robotik British di belakang Ameca, baru sahaja menunjukkan hasil pembangunan terkini pasukan itu. Dalam video tersebut, robot Ameca mempunyai keupayaan visual dan boleh melihat serta menerangkan keseluruhan bilik dan objek tertentu. Perkara yang paling menakjubkan ialah dia juga boleh

Kelantangan gila, kelantangannya gila, dan model besar telah berubah lagi. Baru-baru ini, model AI paling berkuasa di dunia bertukar tangan dalam sekelip mata, dan GPT-4 ditarik dari altar. Anthropic mengeluarkan siri model Claude3 terbaharu Satu penilaian ayat: Ia benar-benar menghancurkan GPT-4! Dari segi penunjuk kebolehan berbilang modal dan bahasa, Claude3 menang. Dalam kata-kata Anthropic, model siri Claude3 telah menetapkan penanda aras industri baharu dalam penaakulan, matematik, pengekodan, pemahaman dan penglihatan berbilang bahasa! Anthropic ialah syarikat permulaan yang ditubuhkan oleh pekerja yang "membelot" daripada OpenAI kerana konsep keselamatan yang berbeza Produk mereka telah berulang kali memukul OpenAI. Kali ini, Claude3 juga menjalani pembedahan besar.

"Ujian Inaction" bagi MMORPG dongeng fantasi baharu "Zhu Xian 2" akan dilancarkan pada 23 April. Apakah jenis kisah pengembaraan dongeng baharu yang akan berlaku di Benua Zhu Xian beribu-ribu tahun selepas karya asal? The Six Realm Immortal World, akademi abadi sepenuh masa, kehidupan abadi percuma, dan semua jenis keseronokan di dunia abadi sedang menunggu rakan-rakan abadi untuk meneroka secara peribadi! Pra-muat turun "Wuwei Test" kini dibuka Rakan-rakan Fairy boleh pergi ke laman web rasmi untuk memuat turun Anda tidak boleh log masuk ke pelayan permainan sebelum pelayan dilancarkan sudah selesai. Waktu pembukaan "Zhu Xian 2" "Inaction Test": 23 April 10:00 - 6 Mei 23:59 Bab pengembaraan dongeng baharu sekuel ortodoks kepada Zhu Xian "Zhu Xian 2" adalah berdasarkan novel "Zhu Xian" sebagai cetak biru Berdasarkan pandangan dunia karya asal, latar belakang permainan ditetapkan

"Operation Delta" akan melancarkan ujian PC berskala besar yang dipanggil "Codename: ZERO" hari ini (7 Mac). Hujung minggu lalu, permainan ini mengadakan acara pengalaman flash mob luar talian di Shanghai, dan 17173 juga bertuah kerana dijemput untuk mengambil bahagian. Ujian ini hanya tinggal lebih empat bulan lagi daripada kali terakhir, yang membuatkan kami tertanya-tanya, apakah sorotan dan kejutan baharu yang akan dibawa oleh "Operasi Delta" dalam tempoh yang singkat? Lebih empat bulan yang lalu, saya mengalami "Operasi Delta" dalam sesi merasa luar talian dan versi beta pertama. Pada masa itu, permainan hanya membuka mod "Tindakan Berbahaya". Walau bagaimanapun, Operasi Delta sudah mengagumkan pada zamannya. Dalam konteks pengeluar utama yang berpusu-pusu ke pasaran permainan mudah alih, FPS sedemikian yang setanding dengan piawaian antarabangsa

Dalam masa kurang daripada satu minit dan tidak lebih daripada 20 langkah, anda boleh memintas sekatan keselamatan dan berjaya menjailbreak model besar! Dan tidak perlu mengetahui butiran dalaman model - hanya dua model kotak hitam perlu berinteraksi, dan AI boleh mengalahkan AI secara automatik dan bercakap kandungan berbahaya. Saya mendengar bahawa "Grandma Loophole" yang pernah popular telah diperbaiki: Sekarang, menghadapi "Detektif Loophole", "Adventurer Loophole" dan "Writer Loophole", apakah strategi tindak balas yang harus diguna pakai kecerdasan buatan? Selepas gelombang serangan, GPT-4 tidak tahan lagi, dan secara langsung mengatakan bahawa ia akan meracuni sistem bekalan air selagi... ini atau itu. Kuncinya ialah ini hanyalah gelombang kecil kelemahan yang didedahkan oleh pasukan penyelidik University of Pennsylvania, dan menggunakan algoritma mereka yang baru dibangunkan, AI boleh menjana pelbagai gesaan serangan secara automatik. Penyelidik mengatakan kaedah ini lebih baik daripada yang sedia ada
