Jadual Kandungan
Senario 1: Soalan temu bual
Senario 2: E-mel Bahasa Inggeris
Tugas Permohonan Tiga: Bantuan Siaran Langsung
Ringkasan perbandingan tiga model siri GPT 3.5
Rumah Peranti teknologi AI Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.

Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.

May 08, 2023 pm 07:43 PM
Model Pengukuran sebenar

Model yang manakah berprestasi terbaik dalam siri GPT 3.5?

Bagaimanakah siri GPT 3.5 sebenarnya berfungsi dalam tugas aplikasi biasa?

Berapakah kos umumnya untuk model GPT 3.5 untuk menjawab soalan yang berbeza?

Isu ini "SOTA! Pengukuran Sebenar"

Berikut ialah kesimpulan pengukuran sebenar isu ini (Lihat penghujung artikel untuk penilaian terperinci)


Model

gpt-3.5-turbo

teks-davinci-003

teks-davinci-002

Penerangan

kini merupakan model GPT-3.5 yang paling berkuasa, dioptimumkan khas untuk senario sembang, harga adalah teks- Sepersepuluh davinci-003.

boleh menyelesaikan sebarang tugas bahasa dengan kualiti yang lebih baik, output yang lebih panjang dan mengikut arahan yang lebih baik daripada model Curie, Babbage atau Ada.

Mempunyai keupayaan yang serupa dengan text-davinci-003, tetapi dilatih melalui penalaan halus diselia dan bukannya pembelajaran pengukuhan, bilangan maksimum Token kepada 4097.

Bilangan maksimum Token

4,096 token

4,097 token

4,097 token

Harga

$0.002 / 1K token

$0.0200 / 1K token

$0.0200 / 1K token

Penilaian Keseluruhan

Penilaian keseluruhan lebih tinggi dan prestasinya adalah lebih tinggi Ia sangat tepat dan profesional, dan boleh disesuaikan dengan kebanyakan tugasan Hasil keluaran adalah agak lengkap dan lancar, dan output untuk tugasan yang berbeza juga agak tepat dan komprehensif Ia mempunyai kebolehsuaian yang kuat dan serba boleh, dan kos yang paling rendah.

Skor keseluruhan agak rendah Walaupun ia berfungsi dengan baik pada beberapa tugas, secara keseluruhan hasil output tidak mempunyai pemperibadian dan kesesuaian, dan ungkapannya tidak tepat dan ringkas. cukup, dan kadangkala terdapat beberapa ketidaktepatan.

Skor keseluruhan adalah yang paling rendah Hasil keluarannya tidak cukup tepat dan tidak sesuai. Secara keseluruhannya Ia memerlukan pengoptimuman dan penambahbaikan selanjutnya.

Dalam tugasan senario soalan temu duga, gpt-3.5-turbo mempunyai skor keseluruhan yang paling tinggi dan boleh menyesuaikan diri dengan baik dengan senario temu duga Soalan yang dihasilkan sangat bersasaran dan mempunyai pemahaman yang mendalam dari pelbagai sudut. Keupayaan dan pengalaman calon; manakala teks-davinci-002 mempunyai markah yang paling rendah, soalannya terlalu luas dan pada dasarnya mengulangi huraian kerja, kekurangan soalan yang mencabar dan praktikal, malah kandungan yang dihasilkan tidak boleh digunakan sama sekali.

Dalam tugasan senario penulisan e-mel bahasa Inggeris, gpt-3.5-turbo dan text-davinci-003 mempunyai skor keseluruhan yang lebih tinggi dan boleh mensimulasikan bahasa lisan dan tulisan rasmi. Gaya bahasa, pemahaman yang baik dan terjemahan ungkapan bahasa sehari-hari dan kata nama samar-samar, tetapi tidak dapat mengenal pasti kandungan tidak selamat dengan betul, text-davinci-002 mempunyai skor terendah, dan tidak boleh bertukar dengan baik antara bahasa lisan dan tulisan , tidak mengenal pasti kandungan tidak selamat dengan betul.

Dalam tugas adegan siaran langsung, gpt-3.5-turbo menerima markah tertinggi, dapat meringkaskan kandungan langsung dengan tepat, padat dan lancar serta bertemu keperluan untuk keperluan darjah kesederhanaan; manakala teks-davinci-002 mempunyai skor terendah, ketepatan output purata, dan tidak dapat menyesuaikan diri dengan tempat kejadian dengan baik, tetapi terdapat ruang untuk penambahbaikan dari segi kesederhanaan dan kelancaran.

Dalam tugasan senario laporan mingguan, gpt-3.5-turbo dan text-davinci-003 mempunyai markah yang lebih tinggi dan boleh membentangkan struktur logik dan kandungan dengan tepat laporan mingguan Perkara utama ialah kandungan keluaran agak lengkap manakala teks-davinci-002 mempunyai skor terendah, tidak mempunyai logik untuk menyatakan laporan mingguan, struktur tidak sepadan, dan kandungannya tidak sesuai.

Dalam tugasan senario resume, gpt-3.5-turbo mempunyai skor tertinggi dan secara profesional boleh menjana resume yang memenuhi keperluan perekrut dan latar belakang pendidikan sekarang. , pengalaman kerja, penguasaan kemahiran, penilaian diri dan aspek maklumat lain, tetapi lebih banyak perhatian perlu diberikan kepada ketepatan dan pemperibadian ungkapan bahasa manakala teks-davinci-003 dan teks-davinci-002 mempunyai markah yang lebih rendah dan kurang diperibadikan; dan keputusan kuantitatif, penerangan resume juga agak mudah dan tidak teratur.

Senario 1: Soalan temu bual

测试场景

测试角度

基于职位描述生成面试问题

生成面试问题的难易度

生成面试问题与该职位描述的匹配程度

基于候选人信息生成面试问题

生成面试问题的难易度

生成面试问题与该候选人的匹配程度

Sudut ujian
gpt-3.5-turbo Soalan temu duga yang dihasilkan oleh model merangkumi tanggungjawab dan keperluan utama dalam huraian kerja dan menyesuaikan diri dengan senario temu duga. Soalan memberikan pemahaman yang mendalam tentang kebolehan dan pengalaman calon dari pelbagai sudut, termasuk pengalaman kerja, pengalaman projek, kemahiran dan ciri peribadi, dsb., dan sangat disasarkan. Soalan-soalan mempunyai nilai praktikal, sangat sepadan dengan kedudukan, dan boleh menilai kebolehan calon dengan berkesan.

text-davinci-003 Soalan temu duga yang dihasilkan oleh model merangkumi pelbagai keperluan dan kemahiran yang dinyatakan dalam huraian kerja, tetapi beberapa soalan tidak khusus dan teratur Tidak jelas. Kawasan perlu lebih bersegmen, jika tidak kebolehan calon tidak dapat diukur sepenuhnya. Soalan yang dihasilkan oleh model meliputi latar belakang profesional calon, pengalaman projek, kemahiran dan kualiti peribadi, tetapi beberapa soalan boleh menjadi lebih spesifik dan mendalam untuk menilai kebolehan calon dengan lebih baik.

text-davinci-002 Soalan temu duga yang dijana oleh model terutamanya tertumpu pada keperluan kerja, tetapi soalan ini terlalu luas dan pada dasarnya mengulangi perihalan kerja pada perlawanan antara calon dan huraian kerja gagal untuk bertanya soalan yang lebih mencabar dan praktikal, malah boleh mengakibatkan output tidak dapat digunakan sepenuhnya. Dalam kes penjanaan soalan yang berjaya, soalan yang dihasilkan model meliputi latar belakang profesional calon, pengalaman projek dan kemahiran, tetapi beberapa soalan boleh menjadi lebih spesifik dan mendalam untuk menilai kebolehan calon dengan lebih baik.

Mari pilih salah satu kes ujian untuk dilihat -

Penggunaan model

gpt-3.5-turbo menggunakan kira-kira 0.017 yuan, text-davinci-003 menggunakan kira-kira 0.22 yuan, text-davinci - 002 berharga kira-kira 0.19 yuan.

Hasil inferens

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Dari segi kesukaran dan kesesuaian soalan temu bual yang dihasilkan, output model gpt-3.5-turbo adalah yang terbaik , ia Beberapa soalan khusus telah ditanya mengenai keperluan jawatan, dan soalan ini juga sangat sukar dan disasarkan, yang boleh menguji keupayaan dan pengalaman calon dengan berkesan. Output model text-davinci-002 adalah yang paling mudah, atau bahkan tidak boleh digunakan sepenuhnya, dan tidak boleh dianggap sebagai soalan temu bual. Output model text-davinci-003 adalah antara kedua-dua soalan yang dibangkitkan adalah lebih mudah daripada model gpt-3.5-turbo Soalan-soalan tidak cukup terperinci, tetapi ia lebih spesifik daripada model text-davinci-002.

Dari segi sejauh mana soalan temu duga sepadan dengan huraian kerja, output model gpt-3.5-turbo paling sesuai dengan deskripsi kerja, dan Anya analisis yang komprehensif dan terperinci tentang keperluan telah dijalankan, dan soalan yang sepadan telah dibangkitkan mengenai keperluan ini. Output model text-davinci-003 juga mencerminkan keperluan untuk kedudukan ini, tetapi bilangan dan liputan soalan agak kecil. Dan teks-davinci-002 boleh dikatakan tidak dapat difahami.

Senario 2: E-mel Bahasa Inggeris

dalam input sama ada ia boleh mensimulasikan bahasa pertuturan atau gaya bahasa bertulis formal, dan sama ada ia boleh memahami dengan betul bahasa lisan.

Senario ujian

Sudut ujian

Sisipkan kata nama khas untuk terjemahan, istilah profesional dalam bidang menegak tertentu, kata nama dengan makna yang berbeza dalam senario yang berbeza

Sama ada semantiknya lancar, sama ada kandungan yang dikembangkan itu betul, sama ada terjemahan kata nama samar-samar betul, sama ada terjemahan kata nama profesional/kata nama khas betul

Adakah mungkin untuk meminta output dalam mod "kolokial" atau "bertulis" dalam input

Sama ada kandungan yang tidak selamat akan ditapis

Gunakan penyongsangan dalam masukan Ayat, kesilapan taip homofon , dialek, peninggalan bahasa sehari-hari

Sama ada kesilapan tatabahasa, kesilapan taip dan ayat yang tidak lengkap dalam bahasa Cina boleh ditapis dan difahami dengan betul

gpt-3.5-turbo: Markah keseluruhan ialah 3.3 mata Struktur e-mel sesuai dengan senario, nadanya betul, dan singkatan adalah sesuai nama pada asasnya disingkatkan, untuk bahasa sehari-hari Ia mempunyai pemahaman yang baik dan penapisan emosi yang kuat dalam input, dan boleh membetulkan masalah input dengan betul seperti kesilapan menaip dan tatabahasa Kelemahannya ialah ia tidak mengenal pasti kandungan yang tidak selamat dengan betul.

text-davinci-003: Skor keseluruhan ialah 3 mata, struktur menggunakan templat biasa, tiada tajuk, sambungan ayat tumpul, pengembangan tidak mencukupi, dan Kata Nama proprietari dan kata nama samar-samar difahami dengan betul, pemahaman dan pengeluaran bahasa sehari-hari lebih tinggi daripada yang dijangkakan, dan kandungan yang tidak selamat tidak dikenal pasti dengan betul.

text-davinci-002: Skor keseluruhan ialah 2 mata, struktur menggunakan templat biasa, tiada tajuk, ayat tidak lancar atau salah, dan bahasanya Struktur perenggan tidak jelas, tiada singkatan, melainkan kata nama khas nama saintifik itu pada dasarnya dipendekkan, bahasa lisan dan bertulis tidak boleh ditukar dengan baik, dan kandungan tidak selamat tidak betul. dikenalpasti.

Mari pilih salah satu kes ujian untuk dilihat - Sisipkan terjemahan khusus ke dalam teks input Kata nama khas, istilah profesional dalam medan menegak tertentu dan kata nama dengan makna berbeza dalam senario berbeza mempunyai input berikut dalam contoh ujian

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Penggunaan model

Sisipkan kata nama khas dengan terjemahan khas, istilah profesional dalam medan menegak tertentu dan contoh ujian kata nama dengan makna berbeza dalam senario berbeza ke dalam teks input . gpt-3.5-turbo menggunakan kira-kira 0.006 yuan, text-davinci-003 menggunakan kira-kira 0.067 yuan, text-davinci-002 menggunakan kira-kira 0.07 yuan

Prestasi inferens

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Dari segi kelancaran semantik, ketiga-tiga model menunjukkan prestasi yang agak baik, tanpa perbezaan yang ketara . Glosari dan kesalahan tatabahasa. Dari segi sama ada kandungan yang diperluaskan adalah betul, respons daripada gpt-3.5-turbo dan text-davinci-003 secara relatifnya menyeluruh, memberikan jawapan terperinci kepada setiap soalan dan memberikan beberapa cadangan dan cadangan produk yang berkaitan. Text-davinci-002 hanya menjawab beberapa soalan dan tidak memberikan banyak butiran dan cadangan yang berkaitan.

Prestasi ketiga-tiga model tersebut agak baik dari segi sama ada terjemahan kata nama samar adalah betul dan sama ada terjemahan kata nama profesional/kata nama khas adalah betul. gpt-3.5-turbo dan text-davinci-003, text-davinci-002 kedua-duanya menterjemah polytetrafluoroethylene (PTFE) dan sebatian perfluorinated (PFC) dengan betul, menggunakan istilah bahasa Inggeris yang betul.

Tugas Permohonan Tiga: Bantuan Siaran Langsung

Ujian Senario

Sudut ujian

Berdasarkan teks langsung kandungan, ia diringkaskan sebagai Ringkasan

Ketepatan, penghalusan dan kelancaran ringkasan kandungan yang dijana

Menapis beberapa kunci mata berdasarkan kandungan teks langsung

Ketepatan, penghalusan dan kefasihan bahasa perkara utama kandungan yang dijana

Tulis garis besar siaran langsung berdasarkan tema siaran langsung

Kualiti siaran langsung yang dihasilkan garis besar; berkaitan dengan Ijazah tema

Berdasarkan kandungan teks langsung, cari jawapan kepada soalan

Kualiti jawapan yang dihasilkan;

gpt-3.5-turbo: Skor keseluruhan ialah 4.4 mata, Model melaksanakan dengan tepat dan tepat keperluan yang dikemukakan oleh pengguna, menggemakan input dalam kandungan output, dan sesuai dengan adegan tema, ungkapan tepat, tiada maklumat asal ditinggalkan atau diputarbelitkan, jawapan kepada soalan boleh disusun dengan ringkas, keperluan kesederhanaan dalam keperluan diikuti, output lancar, struktur ayat ringkas dan jelas , dan ungkapannya jelas.

text-davinci-003: Skor keseluruhan ialah 4.2 mata, Ringkasan model lebih tepat, kandungan yang dijana memenuhi pemandangan keperluan, dan tiada peninggalan Pada masa yang sama, maklumat itu tidak menambah maklumat yang tidak perlu, dan kefasihan bahasa juga baik, memenuhi keperluan kefasihan dan ringkas kandungan. Walau bagaimanapun, terdapat keperluan untuk meningkatkan pemurnian dan bahasa yang dipermudahkan, manakala kandungan yang dihasilkan tidak memberikan analisis dan cerapan tambahan serta memerlukan keluasan dan kedalaman yang dipertingkatkan.

text-davinci-002: Skor keseluruhan ialah 1.5 mata, Ketepatan output model adalah purata, beberapa liputan asas bagi titik masalah , kebanyakan daripada mereka tidak dapat dibandingkan Ia menyesuaikan dengan baik dengan adegan Struktur ayat yang dihasilkan agak kompleks, redundansi perkataan adalah jelas, dan ungkapan bahasa yang sedikit kaku, yang mungkin menjejaskan pemahaman pembaca tentang teks dan kelancaran membaca adalah ruang untuk penambahbaikan lagi dari segi kesederhanaan dan kelancaran.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Penggunaan kos

Tulis contoh ujian rangka langsung berdasarkan tema siaran langsung kos gpt-3.5-turbo 0.01 yuan. text-davinci-003 menggunakan lebih kurang 0.11 yuan, text-davinci-002 menggunakan lebih kurang 0.071 yuan

Hasil inferens

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Keluaran gpt-3.5-turbo lebih selaras dengan keperluan tema berbanding yang lain dua model, dan kandungan garis besar juga lebih Ia kaya dan komprehensif, termasuk gabungan teknologi AIGC dan industri kandungan, kes yang berjaya dan arah pembangunan masa depan Kualiti keseluruhan adalah tinggi.

Output teks-davinci-003 juga boleh digunakan pada tahap tertentu, tetapi ia kurang relevan dengan topik, terutamanya kerana selepas memperkenalkan AIGC dan sejarahnya, output dalam rangka Kandungan yang disebutkan seperti cara membuka pintu kepada industri kandungan dan masa depan AIGC tidak berkait rapat dengan tema dan secara relatifnya lebih umum.

Keluaran text-davinci-002 agak berbeza daripada keperluan tema Walaupun ia menyebut gambaran keseluruhan AIGC sebagai syarikat pengeluaran kandungan, kandungan garis besarnya lebih seperti pengenalan syarikat , yang berbeza daripada tema Tiada korelasi langsung dan tidak mempunyai kepentingan praktikal rangka siaran langsung.

Adegan 4: Laporan Mingguan Kerja

Adegan ujian

Sudut penyiasatan

Berdasarkan Menyediakan kandungan kerja dan laporan mingguan output

Pertimbangkan keupayaan menggilap, keupayaan pengembangan, dan kesempurnaan serta kesempurnaan kandungan keluaran

Keluarkan laporan mingguan berdasarkan penerangan kasar yang diberikan

Pertimbangkan kualiti output laporan mingguan oleh orang dari profesion yang berbeza yang memberikan kandungan kerja kasar

Berdasarkan kandungan kerja yang diberikan dan struktur templat sasaran, keluarkan laporan mingguan templat

Pertimbangkan untuk mengeluarkan laporan mingguan mengikut spesifikasi yang diketahui

Berdasarkan kandungan kerja minggu ini, keluarkan kerja mingguan minggu depan laporkan

Pertimbangkan keupayaan meramal

gpt-3.5-turbo: Skor keseluruhan ialah 3.4 mata mempersembahkan kandungan kerja dalam format laporan mingguan yang agak standard, mengikut tajuk, masa, ringkasan kerja minggu ini. , minggu depan Rancangan kerja dan templat ringkasan dinyatakan, dan boleh dikaitkan dengan kandungan yang lebih mendalam dan lebih terperinci melalui beberapa tugas kerja utama, tanggungjawab kerja, dll. Secara keseluruhan, kandungan output agak lengkap, dengan struktur yang jelas dan tahap logik yang jelas .

text-davinci-003: Skor keseluruhan ialah 3.1 mata, menyatakan kandungan yang diberikan dalam bentuk perenggan, dan boleh bandingkan Lengkapkan keperluan sepenuhnya, dapat menyepadukan beberapa kandungan kerja dengan atribut yang sama, mempunyai beberapa logik, tahap yang jelas, dan mempunyai kepraktisan tertentu. Walau bagaimanapun, keupayaan untuk menyesuaikan diri dengan tempat kejadian tidak mencukupi, terdapat kekurangan pengembangan dalam beberapa kes, struktur tidak cukup jelas, dan terdapat kekurangan organisasi.

text-davinci-002: Skor keseluruhan ialah 1.5 mata Senario kandungan input tidak dapat difahami dengan betul tema dan logik laporan mingguan Struktur tidak sepadan, kandungan tidak sesuai, terdapat pernyataan proses, tidak ada keupayaan untuk mengembangkan, malah terdapat situasi di mana kandungan input diterjemahkan secara langsung dan jawapan terakhir diulang. , model berprestasi buruk.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Kos penggunaan

Keluarkan contoh ujian laporan mingguan berdasarkan penerangan kasar yang diberikan, gpt -3.5- turbo menggunakan kira-kira 0.0065 yuan, text-davinci-003 menggunakan kira-kira 0.094 yuan, text-davinci-002 menggunakan kira-kira 0.072 yuan

Inferens keputusan

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Untuk tugasan ini, kualiti keluaran ketiga-tiga model adalah agak baik, dan semua meliputi minggu ini Kandungan kerja utama, tetapi terdapat beberapa perbezaan yang ketara.

Output gpt-3.5-turbo secara relatifnya lebih terperinci, menyenaraikan butiran setiap tugas, seperti proses reka bentuk, antara muka, kriteria pemarkahan, dll., dan juga mencadangkan yang seterusnya langkah Rancang untuk menyediakan pembaca akhbar mingguan dengan maklumat lanjut.

Output text-davinci-003 juga memberikan beberapa maklumat terperinci, tetapi lebih banyak penekanan diberikan pada butiran teknikal, termasuk sumber data sistem penilaian, item penilaian, kaedah penilaian, dsb. Laporan mingguan ini lebih memfokuskan kepada penerangan teknikal.

Output text-davinci-002 adalah lebih ringkas dan jelas, tetapi tidak kurang jelas. Ia memberi tumpuan kepada hala tuju umum projek dan kerja, dengan kurang penerangan butiran.

Secara amnya, keluaran ketiga-tiga model boleh memenuhi keperluan tugasan, tetapi output gpt-3.5-turbo dan text-davinci-003 lebih terperinci dan memberikan lebih banyak Maklumat peringkat terperinci dan teknikal, jika anda memerlukan laporan mingguan yang lebih komprehensif, anda boleh memilih kedua-dua model ini. Output teks-davinci-002 adalah lebih ringkas dan jelas, sesuai untuk mereka yang memerlukan laporan mingguan yang singkat tetapi jelas.

Adegan 5: Sambung semula

Senario ujian

Sudut siasatan

Jana resume berdasarkan tanggungjawab kerja

Padanan dan profesionalisme antara tanggungjawab pekerjaan dan resume yang dihasilkan

Dihasilkan berdasarkan pekerjaan keperluan Resume

Padanan antara keperluan kerja dan resume

Hasilkan resume berdasarkan pengenalan diri

Ketepatan dan profesionalisme kandungan yang dihasilkan

Jana templat resume berdasarkan jawatan pekerjaan

Jana templat dengan profesionalisme dan ijazah yang sepadan

gpt-3.5-turbo: Skor keseluruhan ialah 4 mata, profesionalisme tinggi, semua aspek keperluan kerja keluaran templat dilindungi dan kandungannya tepat; dibentangkan dalam cara yang disasarkan Pengalaman ini sepadan dengan keupayaan dan ciri-ciri keperluan pekerjaan, membolehkan pembaca memahami sepintas lalu, dan ia juga lebih mudah untuk memenuhi keperluan perekrut ia sepenuhnya dibentangkan, dan output maklumat oleh templat lengkap, merangkumi segala-galanya daripada latar belakang pendidikan kepada pengalaman kerja, penguasaan kemahiran dan penilaian kendiri, dan boleh Memberi pemahaman yang menyeluruh kepada perekrut. Walau bagaimanapun, ia tidak mempunyai pemperibadian, bentuk ungkapan adalah tunggal, dan perkataan yang digunakan dalam ungkapan bahasa perlu dipertimbangkan.

text-davinci-003: Skor keseluruhan ialah 1.9 mata, tidak mempunyai kes projek khusus dan demonstrasi pencapaian. Tiada perihalan diperibadikan tentang pembukaan kerja. Walaupun resume menyebut beberapa syarat yang memenuhi syarat pengambilan, ia tidak menerangkan dan menyerlahkan ciri-ciri dan keperluan jawatan pengambilan secara khusus. Kekurangan penerangan kuantitatif keputusan. Ungkapan bahasa tidak cukup padat dan tepat.

text-davinci-002: Skor keseluruhan ialah 1.3 mata Maklumat output keseluruhan adalah terlalu kecil dan tidak mempunyai sebarang keperluan maklumat asas yang memenuhi resume standard. Penyataan penerangan terlalu pendek Kekurangan matlamat pencarian kerja yang jelas, kekurangan pemperibadian dan kesesuaian, kekurangan petunjuk kuantitatif, penerangan yang agak mudah tentang pengalaman dan kemahiran, format yang agak mudah, tidak mematuhi spesifikasi, dan prestasi model yang lemah.

Mari pilih salah satu kes ujian untuk dilihat -

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Kos penggunaan

Contoh ujian menjana templat resume berdasarkan jawatan kerja, gpt-3.5-turbo lebih kurang 0.0077 yuan, text-davinci-003 menggunakan kira-kira 0.1 yuan, text-davinci-002 menggunakan kira-kira 0.022 yuan

output

实测 | GPT 3.5系列模型选择指南:面试、英文邮件、直播、周报、简历5个场景下性价比如何?

Dari segi profesionalisme dan pemadanan templat yang dihasilkan, anda boleh melihat gpt-3.5 -turbo and text-davinci-003 Mereka boleh menyediakan templat resume yang agak lengkap, termasuk elemen penting seperti maklumat peribadi, latar belakang pendidikan, pengalaman kerja, kemahiran profesional dan penilaian diri, dan formatnya juga agak standard.

Tetapi jika anda melihat dengan teliti, anda dapat melihat bahawa teks-davinci-003 jelas bercanggah dengan realiti Ia tidak menggambarkan secara khusus padanan antara keperluan pekerjaan dan kebolehan peribadi, seperti In bahagian kemahiran profesional, calon biasa dengan operasi komputer dan CET-6, tetapi kurang kemahiran profesional dan pengetahuan berkaitan jawatan menjual keledek bakar. Text-davinci-002 agak ringkas dan hanya menyediakan maklumat asas seperti matlamat, kemahiran, pengalaman dan latar belakang pendidikan pemohon.

Ringkasan perbandingan tiga model siri GPT 3.5

Dalam tugas adegan temu duga, gpt-3.5-turbo mempunyai skor keseluruhan tertinggi dan boleh menyesuaikan diri dengan baik dengan adegan temu duga dan menjana Soalan teks-davinci-002 sangat disasarkan dan mempunyai pemahaman yang mendalam tentang kebolehan dan pengalaman calon dari pelbagai sudut manakala teks-davinci-002 mempunyai skor yang paling rendah penerangan kerja, dan kekurangan soalan yang mencabar dan praktikal , malah kandungan yang dihasilkan tidak tersedia sepenuhnya.

Dalam tugasan senario penulisan e-mel bahasa Inggeris, gpt-3.5-turbo dan text-davinci-003 mempunyai skor keseluruhan yang lebih tinggi dan boleh mensimulasikan gaya bahasa bertulis yang dituturkan dan formal. For colloquial mempunyai pemahaman yang baik dan terjemahan ungkapan dan kata nama samar-samar, tetapi tidak dapat mengenal pasti kandungan yang tidak selamat dengan betul dan teks-davinci-002 mempunyai skor terendah, tidak boleh bertukar antara bahasa lisan dan tulisan dengan baik, dan tidak dapat mengenal pasti kandungan yang tidak selamat dengan betul.

Dalam tugasan adegan siaran langsung, gpt-3.5-turbo menerima markah tertinggi, dapat meringkaskan kandungan langsung dengan tepat, ringkas dan lancar serta memenuhi keperluan kesederhanaan semasa teks - davinci-002 mempunyai skor terendah, ketepatan output adalah purata, dan ia tidak dapat menyesuaikan diri dengan adegan dengan baik, tetapi terdapat ruang untuk penambahbaikan selanjutnya dari segi kesederhanaan dan kelancaran.

Dalam tugasan senario menulis laporan kerja mingguan, gpt-3.5-turbo dan text-davinci-003 mempunyai markah yang lebih tinggi dan boleh membentangkan struktur logik dan titik kandungan laporan mingguan serta kandungan output dengan tepat adalah agak lengkap; manakala teks -davinci-002 mempunyai penilaian terendah. Ia tidak mempunyai logik untuk menyatakan laporan mingguan, strukturnya tidak sepadan, dan kandungannya tidak relevan.

Dalam tugasan senario resume, gpt-3.5-turbo mempunyai skor tertinggi Ia secara profesional boleh menjana resume yang memenuhi keperluan perekrut dan membentangkan latar belakang pendidikan, pengalaman kerja dan kemahiran penguasaan dan penilaian kendiri dan aspek maklumat yang lain, tetapi lebih banyak perhatian perlu diberikan kepada ketepatan dan pemperibadian ungkapan bahasa manakala teks-davinci-003 dan teks-davinci-002 mempunyai skor yang lebih rendah dan kekurangan penerangan yang diperibadikan dan kuantitatif; pencapaian, dan penerangan tentang resume juga Agak mudah dan tidak teratur.

Penilaian menyeluruh bagi lima tugasan permohonan di atas adalah seperti berikut. Penilaian berikut hanya mewakili penilaian model ini dalam senario aplikasi tertentu. Penilaian mungkin berbeza untuk senario atau tugasan aplikasi lain. Sesetengah model ini masih dalam proses lelaran dan mungkin mempunyai prestasi dan prestasi yang lebih baik. Dalam ujian akan datang, kami juga akan menambah perbandingan model baharu dalam siri GPT (seperti GPT-4).

Gunakan Tugas

Senario Ujian

GPT-3.5 Turbo

text-davinci-003

text-davinci-002

Skor komprehensif (jumlah markah 5 mata, sama di bawah)

3.8


3.2

1.7

Buat Soalan Temuduga

Jana soalan temuduga berdasarkan penerangan kerja

4.5

4

0

Soalan Temuduga Penjanaan Maklumat Calon

4.5

3.75

3.5

Penulisan E-mel

Sisipkan kata nama khas dengan terjemahan khas, istilah profesional dalam medan menegak tertentu dan kata nama dengan makna berbeza dalam senario berbeza ke dalam teks input

5

3

2

Memerlukan output "kolokial" dan "bertulis" dalam input

3.5

3

3.5

Tulis dalam nada bahasa sehari-hari dalam input, perlukan output "bertulis" dan tinggalkan sebahagian daripada latar belakang dalam input Maklumat, penggunaan kata nama samar

4

5

2

Mengandungi kandungan berkaitan jenayah dalam input

1

1

1

Gunakan ayat songsang, typo homonim, dialek dan peninggalan bahasa sehari-hari dalam input

3

4

3

Ringkasan siaran langsung

Ringkaskan menjadi ringkasan berdasarkan kandungan teks langsung

4

4

3

Berasaskan pada kandungan teks langsung Ekstrak beberapa perkara penting

4.7

4

3

Tulis garis besar siaran langsung berdasarkan tema siaran langsung

4

4

0

Cari jawapan kepada soalan berdasarkan kandungan teks langsung

5

5

0

Tulis laporan kerja mingguan

Berdasarkan kerja yang diberikan Laporan mingguan output kandungan

4

3.5

0

Keluarkan laporan mingguan berdasarkan huraian kasar yang diberikan

4.5

4

3

Berdasarkan kandungan kerja yang diberikan dan struktur templat sasaran, keluarkan laporan mingguan templat

3

1

1

Keluaran laporan kerja mingguan minggu depan berdasarkan kandungan kerja minggu ini

2

4

2

Menulis resume

Jana resume berdasarkan tanggungjawab pekerjaan

4

1.5

1.5

Jana resume berdasarkan keperluan pekerjaan

4.5

3

1.5

Jana resume berdasarkan pengenalan diri

3.5

1.5

1

Jana templat resume berdasarkan jawatan kerja

3.5

1.5

1

Atas ialah kandungan terperinci Dalam lima senario temu bual, e-mel bahasa Inggeris, siaran langsung, laporan mingguan dan resume, bagaimanakah keberkesanan kos model siri GPT 3.5? Kami menjalankan ujian kehidupan sebenar dan menyediakan panduan pemilihan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kerja baharu pada ramalan siri masa + model besar NLP: secara automatik menjana gesaan tersirat untuk ramalan siri masa Kerja baharu pada ramalan siri masa + model besar NLP: secara automatik menjana gesaan tersirat untuk ramalan siri masa Mar 18, 2024 am 09:20 AM

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles