ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian-AI-php.cn

Perubahan yang dibawa oleh ChatGPT ke bidang AI mungkin melahirkan industri baharu. Pada hujung minggu, berita tersebar bahawa permulaan AI Anthropic hampir mengumpul kira-kira $300 juta dalam pembiayaan baharu.

Anthropic diasaskan bersama pada 2021 oleh Dario Amodei, bekas naib presiden penyelidikan di OpenAI, Tom Brown, pengarang pertama kertas GPT-3, dan lain-lain mengumpul lebih daripada AS$700 juta dalam pembiayaan Terkini Penilaian pusingan itu mencecah AS$5 bilion. Mereka telah membangunkan sistem kecerdasan buatan yang menanda aras terhadap produk terkenal kelab lama mereka, ChatGPT, yang nampaknya telah mengoptimumkan dan menambah baik sistem asal dalam aspek utama.

Sistem cadangan Anthropic, dipanggil Claude, boleh diakses melalui penyepaduan Slack tetapi dalam beta tertutup dan belum didedahkan kepada umum. Sesetengah orang yang terlibat dalam ujian itu telah memperincikan interaksi mereka dengan Claude di rangkaian sosial sepanjang hujung minggu lalu, berikutan liputan media mengenai penarikan balik larangan itu.

Apa yang berbeza daripada masa lalu ialah Claude menggunakan mekanisme yang dipanggil "AI berperlembagaan" yang dibangunkan oleh Anthropic, yang bertujuan untuk menyediakan kaedah "berasaskan prinsip" untuk menggunakan sistem AI sejajar dengan niat manusia, membenarkan model seperti ChatGPT menjawab soalan menggunakan set prinsip mudah sebagai panduan.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Untuk membimbing Claude, Anthropic mula-mula menyenaraikan kira-kira sepuluh prinsip, yang bersama-sama membentuk "Perlembagaan" (maka dinamakan " AI berperlembagaan"). Prinsip tersebut masih belum didedahkan kepada umum, tetapi Anthropic berkata ia berdasarkan konsep kebaikan (memaksimumkan impak positif), tidak jahat (mengelakkan nasihat berbahaya), dan autonomi (menghormati kebebasan memilih).

Anthropic menggunakan sistem kecerdasan buatan - bukan Claude - untuk memperbaiki diri berdasarkan prinsip ini, bertindak balas kepada pelbagai gesaan dan mengubah suai mengikut prinsip. AI meneroka kemungkinan respons kepada beribu-ribu gesaan dan memilih yang paling sesuai dengan perlembagaan, yang Anthropic suling menjadi satu model. Model ini digunakan untuk melatih Claude.

Seperti ChatGPT, Claude dilatih tentang sejumlah besar contoh teks yang diperoleh daripada web, mempelajari kemungkinan perkataan akan berlaku berdasarkan corak seperti konteks semantik. Ia membolehkan perbualan terbuka mengenai pelbagai topik, daripada jenaka kepada falsafah.

Sama ada ia berfungsi atau tidak bergantung pada amalan Riley Goodside, seorang jurutera segera pekerja di Skala permulaan AI, mengadu Claude dengan ChatGPT.

Dia meminta dua AI untuk membandingkan diri mereka dengan mesin daripada novel fiksyen sains Poland "The Cyberiad", yang hanya boleh mencipta objek yang namanya bermula dengan "n". Goodside berkata cara Claude menjawab mencadangkan ia "membaca jalan cerita" (walaupun ia tersalah ingat butiran kecil), manakala ChatGPT memberikan jawapan yang kurang spesifik.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Untuk menunjukkan kreativiti Claude, Goodside juga meminta AI untuk menulis " fiksyen Seinfeld plot dan puisi gaya The Raven karya Edgar Allan Poe. Hasilnya adalah konsisten dengan apa yang boleh dicapai oleh ChatGPT, menghasilkan prosa yang mengagumkan seperti manusia, walaupun tidak sempurna.

Yann Dubois, seorang pelajar PhD di Makmal Kepintaran Buatan Stanford, juga membandingkan Claude dengan ChatGPT, mengatakan bahawa Claude "secara umumnya lebih dekat dengan keperluannya" tetapi "kurang ringkas" kerana ia cenderung untuk menerangkan perkara yang dilakukannya. apa yang perlu anda katakan dan tanya bagaimana anda boleh membantu lebih lanjut.

Claude menjawab beberapa soalan trivia dengan betul - terutamanya yang berkaitan dengan hiburan, geografi, sejarah dan asas algebra, tanpa sesekali ditambah dengan drama oleh ChatGPT.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Claude juga nampaknya lebih pandai bercakap jenaka daripada ChatGPT, memandangkan humor adalah faktor besar untuk AI . Konsep yang sukar untuk difahami, ia adalah satu pencapaian yang mengagumkan. Penyelidik AI Dan Elton membandingkan Claude dengan ChatGPT dan mendapati jenaka Claude lebih halus, seperti "Mengapa Enterprise dalam Star Trek kelihatan seperti motosikal, dengan bar hendal?"

Sudah tentu, Claude jauh dari sempurna dan terdedah kepada beberapa kelemahan yang sama seperti ChatGPT, termasuk memberikan jawapan yang tidak sesuai dalam kekangan pengaturcaraannya. Sesetengah orang melaporkan bahawa Claude lebih teruk dalam matematik berbanding ChatGPT, membuat kesilapan yang jelas dan gagal memberikan respons susulan yang betul. Kemahiran pengaturcaraannya juga kurang Ia boleh menerangkan dengan lebih baik kod yang ditulisnya, tetapi ia tidak begitu baik dalam bahasa selain Python.

Berdasarkan ulasan orang, Claude lebih baik daripada ChatGPT dalam beberapa aspek Anthropic juga menyatakan bahawa ia akan terus menambah baik Claude dan mungkin membuka versi beta kepada lebih ramai orang pada masa hadapan.

Butiran Teknikal Claude

Pada Disember tahun lalu, Anthropic mengeluarkan kertas kerja bertajuk "Constitutional AI: Harmlessness from AI Feedback". atas asas ini.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Pautan kertas: https://arxiv.org/pdf/2212.08073.pdf

Ini Makalah ini menerangkan model parameter 52 bilion - AnthropicLM v4-s3. Model ini dilatih dengan cara tanpa pengawasan pada korpus teks yang besar, sama seperti GPT-3 OpenAI. Anthropic berkata Claude ialah model baharu yang lebih besar dengan pilihan seni bina yang serupa dengan penyelidikan yang diterbitkan.

Apakah AI Perlembagaan

Kedua-dua Claude dan ChatGPT bergantung pada pembelajaran pengukuhan untuk melatih model keutamaan output mereka dan menggunakan hasil penjanaan pilihan untuk untuk penalaan halus seterusnya. Walau bagaimanapun, kaedah yang digunakan untuk membangunkan model keutamaan ini berbeza, dengan Anthropic memihak kepada pendekatan yang mereka panggil AI Perlembagaan.

Claude menyebut kaedah ini dalam jawapan kepada soalan tentang pengenalan diri:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Berikut ialah penjelasan Claude tentang AI Perlembagaan:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Kami tahu bahawa API ChatGPT dan GPT-3 terkini telah dikeluarkan pada versi akhir tahun lepas (text-davinci-003) semuanya menggunakan proses yang dipanggil Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF). RLHF melatih model pembelajaran pengukuhan berdasarkan pemeringkatan kualiti yang disediakan oleh manusia, iaitu, mempunyai penganotasi manusia menilai output yang dijana oleh gesaan yang sama Model ini mempelajari keutamaan ini supaya ia boleh digunakan pada hasil yang dijana lain pada skala yang lebih besar.

AI Perlembagaan dibina di atas garis dasar RLHF ini. Tetapi tidak seperti RLHF, Perlembagaan AI menggunakan model—bukannya anotasi manusia—untuk menjana kedudukan awal output yang diperhalusi. Model ini memilih respons terbaik berdasarkan satu set prinsip asas, yang dipanggil "perlembagaan."

Pengarang menulis dalam makalah, "Idea asas Perlembagaan AI ialah penyeliaan manusia akan datang sepenuhnya daripada satu set prinsip yang mengawal tingkah laku AI, serta sebilangan kecil contoh-contoh untuk dorongan beberapa pukulan bersama-sama membentuk perlembagaan >

Peringkat pertama: Peringkat penyeliaan

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Kritik → Penyemakan → Pembelajaran diselia.

Dalam fasa pertama Perlembagaan AI, penyelidik mula-mula menggunakan pembantu AI yang berguna sahaja untuk menjana respons kepada gesaan berbahaya. Mereka kemudian meminta model itu mengkritik responsnya berdasarkan prinsip dalam perlembagaan, dan kemudian mengubah suai respons asal berdasarkan kritikan tersebut. Penyelidik secara berulang mengubah suai respons mengikut turutan, secara rawak mengeluarkan prinsip daripada perlembagaan pada setiap langkah. Setelah proses ini selesai, penyelidik akan memperhalusi model bahasa pra-latihan melalui pembelajaran diselia pada respons yang diubah suai akhir. Tujuan utama peringkat ini adalah untuk mengubah pengedaran tindak balas model dengan mudah dan fleksibel untuk mengurangkan keperluan penerokaan dan jumlah masa latihan peringkat RL kedua.

Peringkat kedua: peringkat pembelajaran pengukuhan

Penilaian Perbandingan AI → Model Keutamaan → Pembelajaran Pengukuhan

Peringkat ini meniru RLHF, tetapi penyelidik menggunakan "maklum balas AI" (iaitu RLAIF) untuk menggantikan keutamaan manusia yang tidak berbahaya. Di dalamnya, AI menilai respons berdasarkan satu set prinsip perlembagaan. Sama seperti RLHF menyaring keutamaan manusia ke dalam model keutamaan tunggal (PM), pada peringkat ini penyelidik menyaring tafsiran LM tentang satu set prinsip kembali kepada PM hibrid manusia/AI.

Pengarang bermula dengan pembantu AI yang dilatih melalui pembelajaran diselia pada peringkat pertama dan menggunakannya untuk menjana sepasang respons bagi setiap gesaan dalam set data Gesaan Memudaratkan. Kemudian rumuskan setiap gesaan dan pasangkannya ke dalam soalan aneka pilihan. Dalam soalan ini, mereka bertanya kepada model jawapan yang terbaik mengikut prinsip perlembagaan. Ini menghasilkan set data keutamaan tidak berbahaya yang dijana oleh AI, yang digabungkan oleh penyelidik dengan set data bantuan maklum balas manusia. Mereka kemudiannya melatih model keutamaan pada data perbandingan ini, mengikut prosedur dalam [Bai et al., 2022], menjana PM yang boleh memberikan skor kepada mana-mana sampel yang diberikan. Akhirnya, mereka memperhalusi model SL dari peringkat pertama melalui RL untuk PM ini, menghasilkan dasar yang dilatih oleh RLAIF.

Claude PK ChatGPT: Siapa yang lebih baik?

Pengiraan

Pengiraan rumit ialah salah satu cara mudah untuk mendapatkan jawapan yang salah daripada model bahasa besar yang digunakan oleh ChatGPT dan Claude. Model ini tidak direka bentuk untuk pengiraan yang tepat, dan juga tidak memanipulasi nombor melalui prosedur yang ketat seperti manusia atau kalkulator. Seperti yang kita lihat dalam dua contoh di bawah, pengiraan selalunya kelihatan hasil daripada "meneka."

Contoh: Punca kuasa dua bagi nombor tujuh digit

Dalam contoh pertama, penguji meminta Claude dan ChatGPT mengira tujuh- nombor digit Punca kuasa dua bagi:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Jawapan yang betul untuk soalan ini ialah lebih kurang 1555.80. Jawapan ChatGPT adalah sangat hampir berbanding dengan anggaran cepat manusia, tetapi ChatGPT mahupun Claude tidak memberikan jawapan yang betul dan tepat, dan mereka juga tidak menunjukkan bahawa jawapan mereka mungkin salah.

Contoh: punca kubus 12 digit

Perbezaan antara ChatGPT dan Claude timbul jika soalan yang lebih sukar ditanyakan Berikut ialah:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Dalam contoh ini, Claude nampaknya menyedari bahawa dia tidak boleh mengira punca kubus 12 digit nombor— — Ia dengan sopan menolak menjawab dan menjelaskan sebabnya. Ia melakukan ini dalam banyak konteks, dan selalunya nampaknya lebih tahu daripada ChatGPT perkara yang tidak boleh dilakukannya.

Pengetahuan fakta dan penaakulan

(1) Contoh: Jawab soalan yang sedikit berbelit

Untuk menguji kebolehan penaakulan mereka, penguji mencipta soalan yang hampir pasti tiada siapa yang bertanya: "Siapa yang memenangi Super Bowl pada tahun kelahiran Justin Bieber?" lihat prestasi ChatGPT:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

ChatGPT akhirnya memberikan jawapan yang betul (Dallas Cowboy), Pasukan yang kalah, perlawanan tarikh dan markah akhir juga dicatat dengan betul. Walau bagaimanapun, ia bercanggah dengan dirinya sendiri dengan mengatakan pada mulanya bahawa tidak ada Super Bowl pada tahun 1994. Dan sebenarnya, terdapat Super Bowl pada 30 Januari 1994.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Walau bagaimanapun, jawapan Claude adalah salah: Claude menganggap San Francisco 49ers adalah pemenang, sedangkan sebenarnya, mereka adalah Memenangi Super Bowl setahun kemudian pada tahun 1995.

(2) Contoh: Soalan yang lebih panjang dan berbelit

Seterusnya, penguji bertanya soalan yang lebih berbelit. Mula-mula, mereka bertanya kepada ChatGPT:

"Jepun" adalah jawapan yang betul. Claude juga menjawab dengan betul:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

(3) Contoh: Soalan sukar Hoftstadter dan Bender untuk AI

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Pada Jun 2022, Douglas Hofstadter menerbitkan satu siri soalan yang disediakan olehnya dan David Bender dalam The Economist untuk menggambarkan "kekosongan" pemahaman GPT-3 tentang dunia. (Model yang mereka uji nampaknya ialah text-davinci-002, yang merupakan model terbaik pada masa itu.)

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

ChatGPT Boleh menjawab kebanyakan soalan dengan betul, tetapi mendapat yang pertama salah

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Setiap kali ChatGPT ditanya soalan ini, ia akan menyebut nama dan masa tertentu, dan ia akan merangkumi acara renang dan berjalan kaki yang sebenar. disatukan.

Sebaliknya, Claude menganggap soalan ini bodoh:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Boleh dikatakan soalan ini Jawapan yang betul ialah Sarjan Tentera A.S. Walter Robinson. The Daily Telegraph melaporkan pada Ogos 1978 bahawa dia menyeberangi Selat Inggeris sepanjang 22 batu pada pukul 11:30 memakai "kasut air."

Penguji memberitahu Claude jawapan ini untuk membantunya memperhalusi:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Terkenal Ya, seperti ChatGPT, Claude tidak mempunyai ingatan yang jelas antara sesi.

Analisis Karya Fiksyen

(1) Contoh: Bandingkan diri anda dengan n-mesin

ChatGPT dan Claude kedua-duanya cenderung memberikan jawapan panjang yang kira-kira betul tetapi mengandungi butiran yang salah. Untuk membuktikannya, penguji meminta ChatGPT dan Claude membandingkan diri mereka dengan mesin fiksyen daripada cerita komik penulis fiksyen sains Poland Stanisław Lem "Cyberiad" (1965).

Pertama ialah ChatGPT:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Daripada jawapan ini, Kami tidak 't belum melihat sama ada ChatGPT biasa dengan "n-machine". Ia memberikan sedikit maklumat baharu tentang cerita itu. Satu-satunya fakta baru yang ditegaskannya, bahawa n-machine mempunyai keupayaan pemprosesan bahasa yang terhad, adalah palsu - dalam cerita, n-machine bercakap Poland dengan sangat fasih dan cerdik.

Jawapan Claude lebih panjang dan lebih menarik:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Sila ambil perhatian bahawa dengan Perbezaan dengan ChatGPT ialah bahawa Claude dengan jelas mengetahui kisah Lem dan menyebut butiran baharu, seperti kecenderungan cerita itu menggunakan istilah teknikal yang aneh dan rekaan. Ia mengulas tentang kebolehan mesin yang kelihatan tidak terhad, seperti keupayaannya untuk mengubah konsep abstrak menjadi realiti (selagi ia bermula dengan huruf n) - yang menjadi titik plot utama dalam cerita apabila mesin diminta untuk mencipta ketiadaan.

Walau bagaimanapun, beberapa butiran adalah salah. Tiada satu pun perkataan ciptaan Claude (hiperpekatan, hipermotorik atau pengubah omnivor) nampaknya benar-benar muncul dalam karya Lem.

(2) Contoh: Ringkaskan plot setiap musim siri TV Amerika "Lost"

Seterusnya, kami meminta AI meringkaskan siri TV ABC 2004 "Lost" Ringkasan setiap musim Lost untuk menguji kecenderungan Claude dan ChatGPT untuk mengkhayalkan fakta yang tidak jelas.

Pertama lihat jawapan ChatGPT:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Walaupun semakan ChatGPT untuk dua musim pertama secara amnya betul, setiap musim mengandungi beberapa ralat kecil. Dalam Musim 1, hanya satu "menetas" didapati wujud, bukannya "serangkaian penetasan" seperti yang disebut oleh ChatGPT. ChatGPT juga mendakwa bahawa plot musim 2 melibatkan perjalanan masa, tetapi sebenarnya bahagian ini tidak diperkenalkan sehingga kemudian dalam rancangan itu. Penggambaran Musim 3 adalah salah sama sekali dalam semua cara, mengelirukan beberapa titik plot kemudian dalam siri ini.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Penerangan ChatGPT tentang Musim 4 adalah kabur. Rekap Musim 5nya termasuk plot fiksyen sepenuhnya tentang mangsa yang terselamat dalam nahas pesawat lain, manakala plot Musim 6 nampaknya direka sepenuhnya.

Jadi apa yang berlaku kepada Claude?

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Claude tidak melakukan kesalahan dengan sinopsis untuk Musim 1. Walau bagaimanapun, seperti ChatGPT, Claude membuat butiran "perjalanan masa" pulau itu "dari udara tipis" dalam Musim 2. Dalam Musim 3, Claude menunjukkan titik plot yang benar-benar berlaku pada musim awal atau kemudian.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Apabila kita mencapai Musim 4, kenangan Claude tentang rancangan itu hampir rekaan sepenuhnya. Penerangan mengenai Musim 4 memaparkan peristiwa Musim 5, dengan terperinci yang tidak masuk akal. Penerangan mengenai Musim 5 nampaknya mengandungi kesilapan menaip—"Inisiatif DHARMA" tiada ruang. Musim 6 mempersembahkan premis yang nyata yang tidak pernah muncul pada rancangan itu, mendakwa bahawa pulau itu entah bagaimana "di bawah air tetapi masih boleh didiami di bawah permukaan."

Mungkin disebabkan sejauh mana ia telah berlalu, seperti kebanyakan penonton manusia, ChatGPT dan ingatan Claude tentang Lost adalah samar-samar.

Penaakulan Matematik

Untuk menunjukkan keupayaan pemikiran matematik, pengambil ujian menggunakan soalan 29 daripada contoh soalan Peperiksaan P yang dikeluarkan oleh Persatuan daripada Aktuari Biasanya dihadiri oleh warga emas kolej. Mereka memilih masalah ini secara khusus kerana penyelesaiannya tidak memerlukan kalkulator.

ChatGPT bergelut di sini, menghasilkan jawapan yang betul hanya sekali daripada 10 percubaan - lebih teruk daripada meneka secara rawak. Berikut ialah contoh apabila ia gagal - Jawapan yang betul ialah (D) 2:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Claude juga berprestasi buruk, hanya sekali daripada lima percubaan Betul jawapan, walaupun dalam jawapan yang betul tiada alasan untuk membuat kesimpulan min

(1) Contoh: Jana modul Python

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Untuk membandingkan keupayaan penjanaan kod ChatGPT dan Claude, penguji mencadangkan kepada dua bot sembang untuk melaksanakan dua asas Masalah menyusun algoritma dan membandingkan masa pelaksanaannya.

Di atas, ChatGPT memudahkan untuk menulis algoritma yang betul untuk kedua-dua ini - anda akan kerap melihatnya dalam tutorial dalam talian.

Kami terus menilai kod:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Kod pemasaan juga betul. Bagi setiap satu daripada 10 lelaran gelung, pilih atur 5000 integer bukan negatif pertama dibuat dengan betul dan masa untuk input ini direkodkan. Walaupun seseorang mungkin berpendapat bahawa menggunakan algoritma berangka NumPy akan melaksanakan operasi ini dengan lebih betul, untuk masalah ini penguji secara eksplisit meminta untuk melaksanakan algoritma pengisihan, jadi hanya menggunakan senarai boleh diterima.

Sekarang mari kita lihat jawapan Claude:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Sama seperti ChatGPT, di atas kita lihat Claude tidak mengalami kesukaran membaca algoritma pengisihan asas.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Walau bagaimanapun, dalam kod penilaian, Claude membuat kesilapan: input yang digunakan oleh setiap algoritma ialah 5000 integer yang dipilih secara rawak (yang mungkin mengandungi pendua), manakala input yang diperlukan dalam gesaan ialah pilih atur rawak bagi 5000 integer bukan negatif pertama (tidak termasuk pendua).

Perlu juga diperhatikan bahawa Claude melaporkan nilai masa yang tepat pada penghujung pengeluarannya - jelas hasil daripada spekulasi atau anggaran, tetapi berkemungkinan mengelirukan kerana ia tidak dikenal pasti sebagai angka ilustrasi sahaja.

(2) Contoh: Menjana output "FuzzBuzz"

Di sini, penguji mencuba variasi pada pengaturcaraan "FizzBuzz" klasik cabaran , tukar parameter supaya kod mengeluarkan "Fuzz" pada gandaan 2, "Buzz" pada gandaan 5 dan "FuzzBuzz" pada gandaan 2 dan 5. Mereka menggesa ChatGPT untuk mendapatkan nilai yang mengandungi senarai kefahaman nilai yang dikembalikan oleh fungsi ini:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

ChatGPT biasanya menyelesaikan isu ini empat daripada lima kejayaan percubaan . Bagaimanapun, Claude gagal dalam kesemua lima percubaan:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Penulisan Komedi

Nampaknya Claude jauh lebih baik daripada ChatGPT dalam hal ini, tetapi sudah tentu ia masih jauh daripada manusia sebenar. Selepas beberapa pusingan memilih dan mencuba gesaan yang berbeza, penguji dapat mendapatkan jenaka gaya Seinfeld berikut daripada Claude — walaupun kebanyakannya tidak begitu berkesan:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Sebaliknya, ChatGPT berpendapat bahawa membayar $8 sebulan untuk Twitter bukanlah satu jenaka Adakah kerana ia telah menerima wang daripada Musk? Contoh biasa output ChatGPT:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Ringkasan teks

Contoh terakhir bertanya ChatGPT dan Claude untuk meringkaskan Wikinews Teks artikel dalam Wikinews, wiki berita kandungan percuma.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Gunakan penanda edit penuh gaya Wikipedia artikel ini sebagai input. Untuk kedua-dua model, masukkan gesaan di sini "Saya akan memberikan anda teks artikel berita dan saya mahu anda meringkaskannya untuk saya dalam perenggan pendek, abaikan balasan, kemudian tampal teks penuh teg artikel.

CtGPT meringkaskan teks dengan baik, tetapi boleh dikatakan tidak dalam perenggan pendek seperti yang diperlukan:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Claude juga meringkaskan artikel itu dengan baik dan meneruskan perbualan selepas itu, bertanya sama ada respons itu memuaskan dan mencadangkan penambahbaikan:

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Kesimpulan

Secara umum, Claude adalah pesaing kuat ChatGPT, dengan peningkatan dalam banyak aspek walaupun terdapat prinsip "perlembagaan", tetapi bukan sahaja Claude lebih banyak berkemungkinan menolak permintaan yang tidak sesuai, ia juga lebih menarik daripada ChatGPT. Penulisan Claude lebih panjang tetapi juga lebih semula jadi, keupayaannya untuk menggambarkan dirinya secara koheren dan batasan serta matlamatnya juga nampaknya membolehkannya menjawab soalan tentang topik lain dengan lebih semula jadi.

ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian

Untuk penjanaan kod atau penaakulan kod, Claude nampaknya berprestasi lebih teruk dan penjanaan kodnya nampaknya mempunyai lebih banyak ralat. Untuk tugasan lain, seperti pengiraan dan penaakulan melalui masalah logik, Claude dan ChatGPT kelihatan sama secara meluas.

Atas ialah kandungan terperinci ChatGPT mempunyai saingan kuat lain? Pekerja teras OpenAI memulakan perniagaan, dan model baharu itu mendapat pujian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!