


OpenAI o1 dan o1-mini tiba sebagai AI yang mengendalikan soalan STEM dengan lebih baik daripada model terdahulu
OpenAI o1 dan o1-mini telah tiba. AI LLM ini berprestasi jauh lebih baik dalam pengekodan, matematik dan masalah sains dan tugasan berbanding model terdahulu seperti GPT-4o dengan mengambil lebih banyak masa untuk berfikir.
Masalah rumit dalam STEM cenderung memerlukan lebih daripada carian dalam talian pantas untuk jawapan yang betul. Dengan memberikan O1 AI lebih masa untuk berfikir, AI boleh membuat alasan dengan lebih teliti dan tepat. Model o1-mini telah ditala secara khusus untuk menjawab soalan STEM dengan kelajuan yang lebih pantas dan permintaan yang lebih rendah terhadap sumber komputer, dan ia lebih baik dalam pengekodan daripada model o1.
Merentasi pelbagai peperiksaan AP piawai dan ujian STEM untuk LLM, model o1 menunjukkan prestasi dengan ketepatan yang tinggi. Khususnya, pada ujian bacaan & penulisan berasaskan kalkulus AP, Kimia AP, AP Fizik 2, LSAT dan SAT, model o1 berprestasi pada atau melebihi tahap gred B (~80% atau lebih tinggi). Model menjawab dengan tepat pada tahap gred A pada soalan fizik peringkat PhD, pada tahap gred B pada soalan matematik Peperiksaan Matematik Jemputan Amerika 2024 yang sukar dan pada tahap gred B tinggi pada masalah pengekodan Codeforces. Oleh kerana o1 telah ditala untuk menjawab soalan STEM, prestasinya pada AP Bahasa Inggeris dan AP English Literature berada pada atau di bawah tahap gred C.
Menariknya, sementara GPT-4o terpinga-pinga dengan cabaran kriptografi penyahkodan “oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz” apabila diberi petunjuk “oyfjdnisdr rtqwainr”, oyfjdnisdr rtqwainr acxz mynznvaatzacdfoulxxz bermaksud “Tbhinr acxz” memikirkan masalah untuk mendapatkan jawapan yang betul "Terdapat tiga r dalam strawberi". Kuasa baharu ini akan menggembirakan ahli kriptografi hobi di rumah serta NSA.
Penjahat almari pasti ingin tahu bahawa walaupun model o1 yang tidak ditapis cenderung untuk memberikan balasan yang merisaukan, OpenAI telah mengebiri model ini untuk dikeluarkan. Model o1 telah diuji untuk menahan menjawab soalan tentang membuat bioweapon, menghasilkan imej nakal, jailbreak sendiri dan mengganggu serta mengancam. Malangnya, model OpenAI o1 kekal berat sebelah jantina dan bangsa apabila diuji, walaupun terdapat usaha penalaan.
Pengguna ChatGPT Plus dan Pasukan bersama pembangun peringkat 5 penggunaan API mempunyai akses kepada model o1 serta-merta, dan pengguna ChatGPT Edu dan Enterprise akan mendapat akses pada minggu 16 September. Pengguna Percuma ChatGPT akan mendapat akses kepada o1- mini dalam masa terdekat. Model o1 tidak boleh menyemak imbas web atau menerima fail dan imej yang dimuat naik untuk menjawab soalan, jadi OpenAI mengesyorkan pengguna terus menggunakan model GPT-4o mereka untuk soalan umum.
Pengguna yang ingin bertanya soalan AI kini mempunyai pelbagai model LLM yang berkebolehan untuk berinteraksi selain daripada OpenAI, termasuk Anthropic Claude, Microsoft CoPilot, Google Gemini dan X Grok. Setiap AI mempunyai kelebihan khusus, jadi ia patut menguji beberapa model AI untuk mencari model yang paling sesuai dengan keperluan individu. Sesetengah AI ini dibina ke dalam cermin mata pintar (seperti ini di Amazon) dan perakam suara (seperti ini di Amazon), dan beberapa robot humanoid autonomi akan datang menggunakan AI proprietari untuk memasak dan membersihkan.
Atas ialah kandungan terperinci OpenAI o1 dan o1-mini tiba sebagai AI yang mengendalikan soalan STEM dengan lebih baik daripada model terdahulu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Huawei sedang melancarkan perisian versi 5.0.0.100(C00M01) untuk Watch GT 5 dan Watch GT 5 Prosmartwatches di seluruh dunia. Kedua-dua jam tangan pintar ini baru-baru ini dilancarkan di Eropah, dengan model standard tiba sebagai model termurah syarikat. Harmoni ini

Katsuhiro Harada, pengarah siri Tekken, pernah cuba membawa Kolonel Sanders ke dalam permainan pertempuran ikonik. Dalam temu bual dengan TheGamer, Harada mendedahkan bahawa dia mengemukakan idea itu kepada KFC Jepun, dengan harapan dapat menambah legenda makanan segera itu sebagai

Terdahulu pada September 2024, pengecas Zolo 140W Anker telah bocor, dan ia adalah masalah besar kerana ia merupakan pengecas dinding pertama dengan paparan daripada syarikat itu. Kini, video unboxing baharu daripada Xiao Li TV di YouTube memberi kami pandangan pertama tentang hi

Tesla melancarkan versi Pemanduan Sendiri Penuh (Diawasi) terbaharu 12.5.5 dan dengannya disertakan pilihan Cybertruck FSD yang dijanjikan pada akhirnya, sepuluh bulan selepas pikap mula dijual dengan ciri yang disertakan dalam harga kemasan Siri Asas. F

Xiaomi akan melancarkan Pemanas Minyak Mijia Graphene sebentar lagi di China. Syarikat itu baru-baru ini menjalankan kempen crowdfunding yang berjaya untuk produk rumah pintar, dihoskan pada platform Youpinnya. Menurut halaman tersebut, peranti telah mula dihantar ke

Garmin mengakhiri bulan ini dengan set kemas kini stabil baharu untuk jam tangan pintar mewah terbaharunya. Untuk mengimbas kembali, syarikat itu mengeluarkan Perisian Sistem 11.64 untuk memerangi kehabisan bateri yang tinggi merentasi Enduro 3, Fenix E dan Fenix 8 (sekira $1,099.99 di Amazon).

Pelancaran peranti lipat 'Edisi Khas' Samsung yang telah lama ditunggu-tunggu telah mengambil satu kelainan lagi. Dalam beberapa minggu kebelakangan ini, khabar angin mengenai apa yang dipanggil Galaxy Z Fold Edisi Khas menjadi agak senyap. Sebaliknya, tumpuan telah beralih kepada siri Galaxy S25, termasuk

OpenAI mengeluarkan versi pratonton penyelidikan GPT-4.5, yang dikenali sebagai model bahasa "kecerdasan emosi tertinggi" yang besar, tetapi harga yang tinggi telah menyebabkan kontroversi. GPT-4.5 API panggilan per juta token berharga setinggi $ 75, 30 kali gpt-4, jauh melebihi Deepseek-Chat $ 0.5 (puncak) dan $ 0.25 (puncak rendah). Walaupun Openai menekankan bahawa GPT-4.5 telah bertambah baik dalam interaksi semulajadi, memahami niat dan mengurangkan halusinasi, dan telah melakukan dengan baik secara bertulis dan reka bentuk, beberapa hasil penanda aras utama menunjukkan bahawa peningkatan prestasinya tidak mencapai tahap terkemuka industri, terutama dari segi keupayaan pengaturcaraan, dan tidak mempunyai kelebihan terhadap model lain. Pada masa ini, GPT-4.5 telah digunakan untuk chatgptpr
