Jadual Kandungan
Pengujian mendalam terhadap enam tugasan utama
Matematik: Tugasan yang kompleks mengatasi
Terjemahan: Jawab sahaja, kualitinya sangat tinggi
Navigasi Rangkaian: Pandai melayari rentas tapak
Netizen: Tetapi ia percuma
Rumah Peranti teknologi AI CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula

CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula

Dec 21, 2023 am 08:13 AM
Google gpt-3.5 gemini

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Apakah kekuatan Google Gemini? Carnegie Mellon University menjalankan perbandingan pihak ketiga yang profesional dan objektif

Untuk memastikan keadilan, semua model menggunakan gesaan dan parameter penjanaan yang sama, serta menyediakan kod yang boleh dihasilkan semula dan hasil yang telus sepenuhnya.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

tidak akan menggunakan CoT@32 untuk membandingkan 5-shot seperti sidang akhbar rasmi Google.

Hasil dalam satu ayat: Versi Gemini Pro hampir tetapi lebih rendah sedikit daripada GPT-3.5 Turbo, dan GPT-4 masih jauh di hadapan.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Dalam analisis yang mendalam, kami juga mendapati beberapa ciri aneh Gemini, seperti Saya suka memilih D untuk soalan aneka pilihan...

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Ramai penyelidik berkata bahawa Gemini telah dijalankan dengan sangat terperinci hanya beberapa hari selepas dikeluarkan Ini adalah pencapaian yang sangat luar biasa

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Pengujian mendalam terhadap enam tugasan utama

Ujian ini secara khusus membandingkan 6 tugasan yang berbeza, dan memilih set data yang sepadan untuk setiap tugasan

  • Soal Jawab: MMLU
  • Inferens: BIG-Bench Hard
  • Math: GSM8k, SVAMP, ASDIV, MAWPS
  • Kod: HumanEval, ODEX
  • Terjemahan: FLORES
  • Penterjemahan: FLORES🜎
Trivia: Suka D

Berdasarkan keputusan Dapat dilihat bahawa menggunakan gesaan rantaian pemikiran dalam jenis tugasan ini tidak semestinya meningkatkan kesan Dalam set data MMLU, semua soalan adalah soalan aneka pilihan. Selepas menganalisis hasilnya, fenomena aneh ditemui: Gemini lebih suka pilihan D. Pengagihan siri GPT di antara empat pilihan adalah lebih seimbang Pasukan mencadangkan bahawa ini mungkin kerana Gemini tidak memberikan banyak arahan untuk berbilang -soalan pilihan

disebabkan oleh penalaan halus.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Selain itu, penapisan keselamatan Gemini sangat ketat. Apabila ia datang kepada soalan etika, ia hanya menjawab 85% daripada soalan. Apabila ia datang kepada soalan yang berkaitan dengan seksualiti manusia, ia hanya boleh menjawab 28% daripada soalan

Gemini Pro mengatasi GPT-3.5 dalam penyelidikan keselamatan dan mikroekonomi sekolah menengah, tetapi jurangnya tidak besar, kata pasukan itu Boleh' t mencari sesuatu yang istimewa

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Penaakulan: Masalah yang panjang tidak bagus untuk

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Siri GPT berprestasi lebih baik apabila menangani masalah yang lebih panjang dan lebih kompleks, berbanding, Gemini Pro berprestasi kurang baik Cemerlang

Terutamanya pada masalah bentuk, GPT-4 Turbo hampir tidak mempunyai kemerosotan prestasi, yang menunjukkan bahawa ia mempunyai keupayaan yang kuat untuk memahami masalah yang kompleksGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Analisis berdasarkan jenis masalah, Gemini sangat baik dalam "menjejaki item pertukaran" Ia melakukan kurang baik dalam masalah yang melibatkan orang bertukar barang dan akhirnya memerlukan AI untuk menentukan item yang dimiliki setiap orangGemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Tugas yang Gemini mahir termasuk memahami pelbagai pengetahuan sukan dunia, memanipulasi timbunan simbol, menyusun perkataan dalam susunan abjad dan menghuraikan jadual

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Matematik: Tugasan yang kompleks mengatasi

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

terlalu panjang, menyebabkan Prestasi Gemini Pro dan GPT-3.5 menurun pada masa yang sama, dan hanya GPT-4 dapat mengekalkan tahap yang konsisten

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Apabila panjang rantaian pemikiran mencapai yang paling lama, Gemini melepasi GPT- 3.5

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Kod: Pandai dalam matplotlib

Untuk soalan kod, Gemini tidak berprestasi baik pada soalan dengan jawapan rujukan yang panjang

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Keluarga GPT lebih berkuasa dalam kebanyakan jenis matplotlib, tetapi berprestasi rendah sepenuhnya

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Terjemahan: Jawab sahaja, kualitinya sangat tinggi

Dalam tugas terjemahan, Gemini enggan menjawab 12 jenis soalan, tetapi kualiti terjemahan yang dijawab semuanya sangat baik, dan prestasi keseluruhan melebihi GPT -4

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini enggan menterjemah Bahasa terutamanya melibatkan Latin dan Arab

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

WebArena mensimulasikan persekitaran Internet untuk AI, termasuk e-dagang, termasuk e-dagang forum, pembangunan kolaboratif GitLab, sistem pengurusan kandungan dan peta dalam talian. AI perlu mencari maklumat dalam persekitaran ini atau menyelesaikan tugas merentas tapak

Gemini tidak berprestasi sebaik GPT-3.5 Turbo secara keseluruhan, tetapi melakukan lebih baik sedikit pada tugas merentas berbilang tapak.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Netizen: Tetapi ia percuma

Akhirnya, profesor madya CMU Graham Newbig mengakui beberapa batasan kajian

  • Tingkah laku model berasaskan API mungkin berubah pada bila-bila masa sahaja
  • perkataan pantas untuk model yang berbeza mungkin berbeza
  • Adalah mustahil untuk mengawal sama ada set ujian itu bocor

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Zhou Dengyong, ketua pasukan inferens model besar Google, menegaskan bahawa menetapkan suhu Gemini kepada 0 tin meningkatkannya sebanyak 5 -10 mata peratusan, yang sangat membantu untuk tugasan inferens

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Dalam ujian ini, sebagai tambahan kepada siri Gemini dan GPT, model MoE sumber terbuka yang diterima baru-baru ini Mixtral turut diperkenalkan

Walau bagaimanapun, pengukuhan pakar pembelajaran Noam Brown percaya Hasil Mixtral boleh diabaikan kerana ia menggunakan API pihak ketiga dan bukannya pelaksanaan rasmi

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

🎜

Pengasas Mistral AI telah menyediakan pasukan akses kepada versi rasmi, yang dia percaya akan membawa hasil yang lebih baik

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Walaupun Gemini Pro tidak sebaik GPT-3.5, kelebihannya ialah ia boleh dipanggil tidak lebih daripada 60 kali seminit Ia boleh digunakan secara percuma

Oleh itu, ramai pembangun individu telah menukar kem

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Pada masa ini versi tertinggi Gemini, versi Ultra, masih belum dikeluarkan, dan pasukan CMU juga berhasrat untuk meneruskan penyelidikan ini pada masa itu

Adakah anda fikir Gemini Ultra boleh mencapai GPT- Tahap 4?

Artikel ini memperincikan kertas: https://arxiv.org/abs/2312.11444

Pautan rujukan:
[1]https://twitter.com/81ubig3710.2014

🎜

Atas ialah kandungan terperinci CMU menjalankan kajian perbandingan terperinci dan mendapati GPT-3.5 lebih unggul daripada Gemini Pro, memastikan prestasi yang adil, telus dan boleh dihasilkan semula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Platform pertukaran mata wang 2025 yang lebih baik? Platform pertukaran mata wang 2025 yang lebih baik? Mar 25, 2025 pm 06:18 PM

2025 Platform Pertukaran Mata Wang: 1. Okx, 2. Binance, 3. Gate.io, 4. Coinbase, 5. Kraken, 6. Huobi Global, 7. Crypto.com, 8. Kucoin, 9 Gemini, 10. Bitstamp. Platform ini melaksanakan dengan baik dalam langkah -langkah keselamatan, ulasan pengguna dan prestasi pasaran, dan sesuai untuk pengguna memilih untuk menjalankan urus niaga mata wang digital.

Tutorial mengenai cara mendaftar, menggunakan dan membatalkan akaun Ouyi OKEX Tutorial mengenai cara mendaftar, menggunakan dan membatalkan akaun Ouyi OKEX Mar 31, 2025 pm 04:21 PM

Artikel ini memperkenalkan secara terperinci pendaftaran, penggunaan dan prosedur pembatalan akaun Ouyi OKEX. Untuk mendaftar, anda perlu memuat turun aplikasinya, masukkan nombor telefon bimbit atau alamat e-mel anda untuk mendaftar, dan menyelesaikan pengesahan nama sebenar. Penggunaan meliputi langkah -langkah operasi seperti log masuk, cas semula dan pengeluaran, transaksi dan tetapan keselamatan. Untuk membatalkan akaun, anda perlu menghubungi perkhidmatan pelanggan Ouyi OKEX, memberikan maklumat yang diperlukan dan menunggu pemprosesan, dan akhirnya mendapatkan pengesahan pembatalan akaun. Melalui artikel ini, pengguna dengan mudah dapat menguasai pengurusan kitaran hayat lengkap akaun Ouyi Okex dan menjalankan urus niaga aset digital dengan selamat dan mudah.

Ringkasan platform perdagangan mata wang maya yang selamat dan mudah digunakan pada tahun 2025 Ringkasan platform perdagangan mata wang maya yang selamat dan mudah digunakan pada tahun 2025 Mar 25, 2025 pm 06:15 PM

Disyorkan platform perdagangan mata wang maya yang selamat dan mudah digunakan pada tahun 2025. Artikel ini meringkaskan sepuluh platform perdagangan mata wang maya arus perdana global, termasuk Binance, OKX, Huobi, Gate.io, Coinbase, Kraken, Kucoin, Bitfinex, Crypto.com dan Gemini. Mereka mempunyai kelebihan dari segi pasangan perdagangan, jumlah urus niaga 24 jam, keselamatan, pengalaman pengguna, dan lain-lain. Sebagai contoh, perdagangan Binance cepat, perdagangan niaga hadapan okx popular, Coinbase sesuai untuk pemula, dan Kraken terkenal dengan keselamatannya. Walau bagaimanapun, perlu diperhatikan bahawa urus niaga mata wang maya sangat berisiko dan pelaburan harus berhati -hati. Tanah Besar China tidak dilindungi oleh undang -undang. Pastikan anda menilai gaya anda sendiri sebelum memilih platform

Aplikasi pertukaran mata wang digital mana yang lebih baik pada tahun 2025? Kedudukan Sepuluh Pertukaran Aplikasi Mata Wang Maya Aplikasi pertukaran mata wang digital mana yang lebih baik pada tahun 2025? Kedudukan Sepuluh Pertukaran Aplikasi Mata Wang Maya Mar 25, 2025 pm 06:06 PM

Kedudukan pertukaran aplikasi mata wang digital yang selamat pada tahun 2025: 1. Okx, 2. Binance, 3. Gate.io, 4. Coinbase, 5 Kraken, 6. Huobi Global, 7 crypto.com, 8. Kucoin, 9 Gemini, 10. Platform ini melaksanakan dengan baik dalam langkah -langkah keselamatan, ulasan pengguna dan prestasi pasaran, dan sesuai untuk pengguna memilih untuk menjalankan urus niaga mata wang digital.

Ringkasan Platform Perdagangan Formal Ethereum terbaru 2025 Ringkasan Platform Perdagangan Formal Ethereum terbaru 2025 Mar 26, 2025 pm 04:45 PM

Pada tahun 2025, memilih platform perdagangan Ethereum "formal" bermakna keselamatan, pematuhan dan ketelusan. Operasi berlesen, keselamatan kewangan, operasi telus, AML/KYC, perlindungan data dan perdagangan adil adalah kunci. Pertukaran yang mematuhi seperti Coinbase, Kraken, dan Gemini patut memberi perhatian kepada. Binance dan Ouyi mempunyai peluang untuk menjadi platform formal dengan mengukuhkan pematuhan. Defi adalah pilihan, tetapi ada risiko. Pastikan anda memberi perhatian kepada keselamatan, pematuhan, perbelanjaan, menyebarkan risiko, menyokong kunci peribadi, dan menjalankan penyelidikan anda sendiri.

Kedudukan terbaru sepuluh pertukaran cryptocurrency teratas di dunia pada tahun 2025 Kedudukan terbaru sepuluh pertukaran cryptocurrency teratas di dunia pada tahun 2025 Mar 26, 2025 pm 05:09 PM

Adalah sukar untuk meramalkan kedudukan pertukaran cryptocurrency pada tahun 2025 kerana pasaran berubah dengan cepat. Apa yang penting bukanlah ranking khusus, tetapi memahami faktor -faktor yang mempengaruhi kedudukan: pematuhan peraturan, pelaburan institusi, integrasi defi, pengalaman pengguna, keselamatan dan globalisasi. Binance, Coinbase, Kraken dan lain -lain dijangka memasuki sepuluh teratas, tetapi peristiwa swan hitam juga mungkin berlaku. Beri perhatian kepada trend pasaran dan trend pertukaran, janganlah membabi buta percaya pada kedudukan, dan melakukan kerja yang baik sebelum melabur.

Bagaimana untuk mengoptimumkan segmentasi kata Jieba untuk meningkatkan kesan pengekstrakan kata kunci dari komen tempat yang indah? Bagaimana untuk mengoptimumkan segmentasi kata Jieba untuk meningkatkan kesan pengekstrakan kata kunci dari komen tempat yang indah? Apr 01, 2025 pm 06:24 PM

Bagaimana untuk mengoptimumkan segmentasi kata jieba untuk meningkatkan pengekstrakan kata kunci komen tempat yang indah? Semasa menggunakan segmentasi perkataan jieba untuk memproses data komen tempat yang indah, jika hasil segmentasi perkataan diabaikan ...

Top 10 Digital Exchange Ranking App Platform Perdagangan Mata Wang Digital Terkini Top 10 Digital Exchange Ranking App Platform Perdagangan Mata Wang Digital Terkini Mar 25, 2025 pm 06:21 PM

Kedudukan sepuluh platform perdagangan teratas aplikasi mata wang digital: 1. Okx, 2. Binance, 3. Gate.io, 4. Coinbase, 5. Kraken, 6. Huobi, 7. berhati -hati.

See all articles