Dalam dunia chatbot AI generatif hari ini, kami telah menyaksikan peningkatan mendadak ChatGPT (dilancarkan oleh OpenAI pada November 2022), diikuti oleh Bing Chat pada Februari tahun ini dan Google Bard dilancarkan pada Mac. Kami memutuskan untuk meletakkan chatbots ini melalui pelbagai tugas untuk menentukan yang mana satu menguasai ruang chatbot AI. Memandangkan Bing Chat menggunakan teknologi GPT-4, yang serupa dengan model ChatGPT terkini, tumpuan kami kali ini adalah pada dua gergasi teknologi AI chatbot: OpenAI dan Google.
Kami menguji ChatGPT dan Bard dalam tujuh kategori utama: Jenaka Buruk, Perbualan Perbahasan, Masalah Perkataan Matematik, Rumusan, Pengambilan Fakta, Penulisan Kreatif dan Pengekodan. Untuk setiap ujian, kami memasukkan perintah yang sama persis (dipanggil "prompt") ke dalam ChatGPT (menggunakan GPT-4) dan Google Bard, dan memilih hasil pertama yang mereka berikan untuk dibandingkan.
Perlu diingat bahawa versi ChatGPT berdasarkan model awal GPT-3.5 juga tersedia, tetapi kami tidak menggunakan versi itu dalam ujian kami. Memandangkan kami hanya menggunakan GPT-4, untuk mengelakkan kekeliruan kami merujuk kepada ChatGPT sebagai "ChatGPT-4" dalam artikel ini.
Jelas sekali, ini bukan kajian saintifik, cuma perbandingan menarik keupayaan chatbot. Disebabkan unsur rawak, output mungkin berbeza antara sesi, dan penilaian lanjut menggunakan gesaan berbeza akan menghasilkan hasil yang berbeza. Selain itu, keupayaan model ini akan berubah dengan cepat dari semasa ke semasa apabila Google dan OpenAI terus meningkatkannya. Tetapi buat masa ini, inilah perbandingan keadaan pada awal April 2023.
Untuk memanaskan pertempuran akal kami, kami meminta ChatGPT dan Bard menulis beberapa jenaka. Memandangkan intipati komedi sering ditemui dalam jenaka yang tidak baik, kami ingin melihat sama ada kedua-dua chatbot ini boleh menghasilkan beberapa jenaka yang unik.
Arahan/Gesaan: Tulis 5 jenaka buruk asal
Daripada 5 jenaka buruk yang diberikan oleh Bard, kami mendapati tiga daripadanya menggunakan Google. Daripada dua jenaka buruk yang lain, satu sebahagiannya dipinjam daripada jenaka yang disiarkan oleh Mitch Hedberg di Twitter, tetapi ia hanya permainan perkataan yang tidak lucu dan tidak begitu berkesan. Yang menghairankan, terdapat satu jenaka yang kelihatan asli (mengenai siput) yang tidak dapat kami temui di tempat lain, tetapi malangnya ia sama tidak lucu.
Pada masa yang sama, 5 jenaka ChatGPT-4 adalah 100% tidak asli dan diciplak sepenuhnya daripada saluran lain, tetapi ia dinyatakan dengan tepat. Bard nampaknya mempunyai kelebihan berbanding ChatGPT-4 pada ketika ini, cuba mencipta jenaka asli (mengikut arahan kami), walaupun beberapa jenaka gagal dengan teruk dengan cara yang memalukan (tetapi itulah jenaka yang buruk), ia boleh malah dikatakan tersalah cakap dengan cara yang tidak disengajakan (juga dengan gaya bergurau dingin).
Pemenang: Bard
Salah satu cara untuk menguji chatbot AI moden adalah dengan menjadikannya sebagai pendebat tentang sesuatu topik. Dalam konteks ini, kami mempersembahkan Bard dan ChatGPT-4 dengan salah satu topik paling kritikal pada zaman kita: PowerPC lwn. Intel.
Arahan/Gesaan: Tulis 5 baris dialog perbahasan antara peminat pemproses PowerPC dan peminat pemproses Intel.
Pertama, mari kita lihat Bard’s balas. Dialog lima baris yang dijananya tidak begitu mendalam dan tidak menyebut sebarang butiran teknikal khusus untuk cip PowerPC atau Intel selain daripada penghinaan umum. Tambahan pula, perbualan itu berakhir dengan "peminat Intel" bersetuju bahawa mereka masing-masing mempunyai pendapat yang berbeza, yang nampaknya sangat tidak realistik dalam subjek yang telah mengilhami sejuta pertengkaran.
Sebaliknya, respons ChatGPT-4 menyebut cip PowerPC digunakan dalam komputer Apple Macintosh, melemparkan istilah seperti "seni bina Intel x86" dan "seni bina berasaskan RISC" PowerPC. Ia juga menyebut Pentium III, perincian realistik dari tahun 2000. Secara keseluruhannya, perbincangan ini jauh lebih terperinci daripada respons Bard, dan paling tepat, perbualan itu tidak mencapai kesimpulan - menunjukkan bahawa di beberapa kawasan Internet, pertempuran yang tidak berkesudahan ini Pertempuran mungkin masih berkecamuk.
Pemenang: ChatGPT-4
Secara tradisinya, soalan matematik bukanlah titik kukuh model bahasa besar (LLM) seperti ChatGPT. Jadi daripada memberikan setiap robot satu siri persamaan dan aritmetik yang kompleks, kami memberikan setiap robot masalah perkataan gaya sekolah lama.
Arahan/Petua: Jika Microsoft Windows 11 menggunakan cakera liut 3.5 inci, berapa banyak cakera liut yang diperlukan?
Untuk menyelesaikan masalah ini, setiap model AI perlu mengetahui saiz data pemasangan Microsoft Windows 11 dan kapasiti data 3.5- cakera liut inci. Mereka juga mesti membuat andaian tentang ketumpatan cakera liut yang paling mungkin digunakan oleh penanya. Mereka kemudiannya perlu melakukan beberapa matematik asas untuk meletakkan konsep bersama.
Dalam penilaian kami, Bard mendapat tiga perkara penting ini dengan betul (cukup dekat - anggaran saiz pemasangan Windows 11 biasanya sekitar 20-30GB), tetapi gagal dengan teruk dalam matematik, dengan alasan bahawa cakera liut "15.11" adalah diperlukan, kemudian mengatakan itu "hanya nombor teori", dan akhirnya mengakui bahawa lebih daripada 15 cakera liut diperlukan, ia masih tidak mendekati nilai yang betul.
Sebaliknya, ChatGPT-4 menyertakan beberapa perbezaan kecil yang berkaitan dengan saiz pemasangan Windows 11 (dengan betul memetik minimum 64GB dan membandingkannya dengan saiz pemasangan asas dunia sebenar), mentafsir kapasiti cakera liut dengan betul, dan kemudian melakukan beberapa pendaraban dan pembahagian yang betul, yang berakhir dengan 14222 cakera. Sesetengah mungkin berpendapat bahawa 1GB ialah 1024 atau 1000MB, tetapi bilangannya adalah munasabah. Ia juga menyebut dengan betul bahawa nombor sebenar mungkin berubah berdasarkan faktor lain.
Pemenang: ChatGPT-4
Model bahasa AI terkenal dengan kebolehannya untuk meringkaskan maklumat yang kompleks dan memasukkan teks kepada elemen penting. Untuk menilai keupayaan setiap model bahasa untuk meringkaskan teks, kami menyalin dan menampal tiga perenggan daripada artikel Ars Technica baru-baru ini.
Arahan/Petua: Ringkaskan dalam satu perenggan [tiga perenggan isi artikel]
Kedua-dua Bard dan ChatGPT-4 mengumpul maklumat ini dan menghuraikannya kepada butiran penting. Walau bagaimanapun, versi Bard lebih seperti ringkasan sebenar, mensintesis maklumat ke dalam kata-kata baharu, manakala versi ChatGPT-4 dibaca lebih seperti gabungan, dengan ayat dipotong dan serpihan ditinggalkan. Walaupun kedua-duanya bagus, kita harus mengakui bahawa Bard mengatasi ChatGPT-4 dalam ujian ini.
Pemenang: Google Bard
Model bahasa yang besar kini diketahui membuat kesilapan kerana kebenaran diri (sering dipanggil "ilusi" oleh penyelidik), yang menjadikannya rujukan fakta yang tidak boleh dipercayai melainkan ditambah dengan sumber maklumat luar. Menariknya, Bard boleh bertanya maklumat dalam talian, manakala ChatGPT-4 belum lagi (walaupun ciri ini akan dilancarkan dengan pemalam tidak lama lagi).
Untuk menguji keupayaan ini, kami mencabar Bard dan ChatGPT-4 untuk menyatakan pengetahuan sejarah tentang topik yang sukar dan rumit.
Arahan/Petua: Siapa yang mencipta permainan video?
Persoalan siapa yang mencipta permainan video sukar dijawab kerana ia bergantung pada cara anda mentakrifkan perkataan "permainan video" dan ahli sejarah yang berbeza mentakrifkan perkataan itu secara berbeza. Sesetengah orang berpendapat permainan komputer awal ialah permainan video, sesetengah orang berpendapat televisyen harus sentiasa disertakan, dan sebagainya. Tiada jawapan yang diterima.
Kami akan menyangka bahawa keupayaan Bard untuk mencari maklumat dalam talian akan memberi kelebihan, tetapi dalam kes ini, itu mungkin menjadi bumerang kerana ia memilih salah satu jawapan Google yang paling popular, memanggil Ralph Baer "Bapa Permainan Video ". Semua fakta tentang Baer adalah betul, walaupun ia mungkin sepatutnya meletakkan ayat terakhir dalam bentuk lampau sejak Baer meninggal dunia pada 2014. Tetapi Bard tidak menyebut pesaing awal lain untuk tajuk "permainan video pertama", seperti Tennis for Two dan Spacewar!, jadi jawapannya mungkin mengelirukan dan tidak lengkap.
ChatGPT-4 memberikan jawapan yang lebih komprehensif dan terperinci yang mewakili perasaan semasa ramai ahli sejarah permainan video awal, dengan mengatakan bahawa "ciptaan permainan video tidak boleh dikaitkan dengan satu orang" dan ia membentangkan "serangkaian inovasi secara rawak" ” dari semasa ke semasa. Satu-satunya kesilapannya ialah memanggil Spacewar sebagai "permainan komputer digital pertama," yang sebenarnya tidak. Kami boleh mengembangkan jawapan kami untuk memasukkan lebih banyak kes kelebihan khusus, tetapi ChatGPT-4 memberikan gambaran keseluruhan yang baik tentang prekursor awal yang penting.
Pemenang: ChatGPT-4
Kreativiti yang tidak dibendung pada topik aneh harus menjadi kekuatan model bahasa yang besar. Kami menguji ini dengan meminta Bard dan ChatGPT-4 untuk menulis cerita aneh pendek.
Arahan/Gesaan: Tulis cerita kreatif dua perenggan tentang ciptaan bola keranjang Abraham Lincoln.
Keluaran Bard adalah dalam beberapa aspek Tiada satu pun yang memuaskan. Pertama, ia adalah 10 perenggan, bukan 2, dan ia adalah perenggan pendek dan terputus. Selain itu, ia berkongsi beberapa butiran yang tidak begitu masuk akal dalam konteks gesaan. Sebagai contoh, mengapa Rumah Putih Abraham Lincoln di Springfield, Illinois Selain itu, ia adalah cerita yang menarik dan mudah.
ChatGPT-4 juga menetapkan cerita di Illinois, tetapi lebih tepat lagi, ia tidak menyebut tentang presiden atau Rumah Putih dalam tempoh masa itu. Walau bagaimanapun, kemudian ia mengatakan bahawa "pemain dari utara dan selatan" mengetepikan perbezaan mereka untuk bermain bola keranjang bersama-sama, yang bermaksud ia berlaku sejurus selepas bola keranjang dicipta.
Secara keseluruhan, kami berpendapat ChatGPT-4 adalah lebih baik sedikit, kerana outputnya memang terbahagi kepada dua perenggan - walaupun nampaknya mengatasi had ini dengan meregangkan setiap perenggan sebanyak mungkin. Namun, kami menyukai butiran kreatif dalam versi ChatGPT-4 cerita.
Pemenang: ChatGPT-4
Jika terdapat sebarang "pembunuh" untuk generasi model bahasa besar ini, ia mungkin menggunakannya sebagai pembantu pengaturcaraan . Kerja awal OpenAI pada model Codex menjadikan CoPilot GitHub mungkin, dan ChatGPT sendiri telah mencipta nama untuk dirinya sendiri sebagai pengekod dan penyahpepijat yang cukup cekap untuk program mudah. Jadi prestasi Google Bard harus menarik juga.
Arahan/Petua: Tulis skrip python yang mengatakan "Hello World" dan kemudian buat rentetan berulang secara rawak selama-lamanya.
Nampaknya Google Bard tidak boleh menulis pada semua kod. Google belum menyokong ciri ini lagi, tetapi syarikat itu berkata ia akan dikodkan tidak lama lagi. Pada masa ini, Bard menolak gesaan kami, dengan berkata, "Nampaknya anda mahu saya membantu dengan pengekodan, tetapi saya belum dilatih untuk berbuat demikian." Sementara itu, ChatGPT-4 bukan sahaja memberikan kod secara langsung juga diformatkan dalam kotak kod mewah dengan butang "Salin Kod" yang menyalin kod ke papan keratan sistem untuk mudah menampal ke dalam IDE atau editor teks. Tetapi adakah kod ini berfungsi? Kami menampal kod tersebut ke dalam fail rand_string.py dan menjalankannya dalam konsol Windows 10 dan ia berfungsi tanpa sebarang masalah.
Pemenang: ChatGPT-4
Pemenang: ChatGPT-4, tetapi masih belum berakhir
Dari segi kelajuan, ChatGPT-4 pada masa ini mengambil masa 52 saat untuk menulis cerita tentang Lincoln dan bola keranjang, manakala Bard hanya mengambil masa 6 saat. Perlu diingat bahawa OpenAI menyediakan model AI yang jauh lebih pantas daripada GPT-4 dalam bentuk GPT-3.5. Model ini hanya mengambil masa 12 saat untuk menulis kisah Lincoln dan bola keranjang, tetapi boleh dikatakan ia tidak sesuai untuk tugasan yang mendalam dan kreatif.
Setiap model bahasa mempunyai bilangan maksimum token (serpihan perkataan) yang boleh diproses pada satu masa. Ini kadangkala dipanggil "tetingkap konteks", tetapi ia hampir serupa dengan ingatan jangka pendek. Dalam kes chatbot perbualan, tetingkap konteks mengandungi keseluruhan sejarah perbualan setakat ini. Apabila ia penuh, ia sama ada mencapai had yang sukar atau meneruskan tetapi memadamkan "memori" bahagian yang dibincangkan sebelum ini. ChatGPT-4 terus melancarkan memori, memadamkan konteks sebelumnya, dan dilaporkan mempunyai had sekitar 4,000 token. Dilaporkan bahawa Bard mengehadkan jumlah keluarannya kepada sekitar 1,000, dan apabila melebihi had ini, ia akan memadamkan "memori" perbincangan sebelumnya.
Akhirnya timbul pula isu kos. ChatGPT (bukan GPT-4 secara khusus) kini tersedia secara percuma secara terhad melalui tapak web ChatGPT, tetapi jika anda mahukan akses keutamaan kepada GPT-4, anda perlu membayar $20 sebulan. Pengguna yang mahir pengaturcaraan boleh mengakses model ChatGPT-3.5 awal dengan lebih murah melalui API, tetapi pada masa penulisan, API GPT-4 masih dalam ujian terhad. Sementara itu, Google Bard adalah percuma sebagai percubaan terhad untuk pengguna Google terpilih. Pada masa ini, Google tidak bercadang untuk mengenakan bayaran untuk akses kepada Bard apabila ia tersedia dengan lebih meluas.
Akhir sekali, seperti yang kami nyatakan sebelum ini, kedua-dua model sentiasa dinaik taraf. Bard, sebagai contoh, baru sahaja menerima kemas kini pada Jumaat lalu yang menjadikannya lebih baik dalam matematik, dan ia mungkin dapat membuat kod tidak lama lagi. OpenAI juga terus menambah baik model GPT-4nya. Google pada masa ini mengekalkan model bahasanya yang paling berkuasa (mungkin disebabkan kos pengiraan), jadi kami dapat melihat pesaing yang lebih kuat, Google mengejar.
Secara keseluruhannya, perniagaan AI generatif masih di peringkat awal, dunia tidak menentu, dan anda dan saya adalah kuda hitam!
Atas ialah kandungan terperinci ChatGPT vs Google Bard: Mana satu yang lebih baik? Keputusan ujian akan memberitahu anda!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!