Jadual Kandungan
Gambaran Keseluruhan
Jadual Kandungan
Apa masalahnya?
Gunakan kes Openai O1
Hasil ujian yang mengagumkan
Pertandingan Matematik Lanjutan
Kepakaran sains
Pengekodan
Penanda aras lain dan pemahaman visual
Memahami maklumat visual (persepsi penglihatan)
Ujian Pencitraan Perubatan (penanda aras MMMU)
Pelbagai pengetahuan (penanda aras mmlu)
Bertemu O1-Mini
Matematik dengan O1 Mini
Siapa yang boleh menggunakan O1-Preview?
Bagaimana untuk mengakses O1-Preview?
Keselamatan juga penting
Apa yang seterusnya?
Pemikiran terakhir
Rumah Peranti teknologi AI Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Apr 13, 2025 am 09:26 AM

Pernahkah anda mendengar berita besar? OpenAI hanya melancarkan pratonton siri baru model AI - OpenAI O1 (juga dikenali sebagai Projek Strawberry/Q*). Model -model ini istimewa kerana mereka menghabiskan lebih banyak masa "berfikir" sebelum mereka memberi anda jawapan. Ini bermakna mereka lebih baik menangani masalah yang sangat sukar di kawasan seperti sains, pengekodan, dan matematik berbanding dengan model terdahulu, sebahagian besarnya terima kasih kepada parameter Openai O1 yang maju.

Openai mengambil moto "berfikir sebelum anda bercakap" dengan hati dengan siri O1!

Gambaran Keseluruhan

  • Siri model O1 Openai yang baru cemerlang dalam alasan melalui masalah yang sukar dalam matematik, sains, dan pengekodan, mengatasi versi terdahulu.
  • Model O1-Preview menangani tugas-tugas lanjutan, menyelesaikan 93% masalah matematik AIME dan melampaui pakar manusia dalam penanda aras saintifik. Kebanyakan kejayaan ini datang kepada bagaimana parameter Openai O1 yang berkesan ditetapkan untuk mengendalikan tugas -tugas yang kompleks.
  • Openai's O1-Mini menawarkan keupayaan pengekodan yang kuat pada 80% daripada kos, menjadikannya alat yang boleh diakses untuk pemaju.
  • Dengan langkah-langkah keselamatan yang lebih baik, model O1 memastikan penggunaan AI yang bertanggungjawab semasa menyediakan penyelesaian masalah yang dipertingkatkan untuk penyelidik, pemaju, dan pendidik.

Jadual Kandungan

  • Apa masalahnya?
  • Gunakan kes Openai O1
  • Hasil ujian yang mengagumkan
    • Pertandingan Matematik Lanjutan
    • Kepakaran sains
    • Pengekodan
    • Penanda aras lain dan pemahaman visual
  • Bertemu O1-Mini
  • Matematik dengan O1 Mini
  • Siapa yang boleh menggunakan O1-Preview?
  • Bagaimana untuk mengakses O1-Preview?
  • Keselamatan juga penting
  • Apa yang seterusnya?
  • Pemikiran terakhir

Apa masalahnya?

Model O1-Preview dilatih untuk mengambil langkah mundur dan benar-benar berfikir perkara-perkara melalui, seperti manusia ketika menghadapi masalah yang sukar. Mereka menganggap pendekatan yang berbeza, memperbaiki pemikiran mereka, dan juga menangkap kesilapan mereka sendiri di sepanjang jalan. Tahap pemikiran yang lebih mendalam ini membolehkan mereka menyelesaikan masalah yang tidak dapat dikendalikan oleh model -model yang lebih tua.

Gunakan kes Openai O1

Pengekodan dengan Openai O1

Menulis teka -teki dengan Openai O1

Ular HTML dengan Openai O1

Hasil ujian yang mengagumkan

Untuk melihat betapa lebih baik O1 dibandingkan dengan model GPT-4O yang terdahulu, OpenAI meletakkan mereka melalui satu siri ujian sukar, termasuk peperiksaan manusia dan penanda aras pembelajaran mesin. Dan teka apa? O1 mengatasi GPT-4O pada kebanyakan tugas-tugas yang berat!

Mari merosakkan beberapa hasil:

Pertandingan Matematik Lanjutan

Mereka menguji model AIME (Peperiksaan Matematik Undangan Amerika) , yang merupakan peperiksaan matematik yang sangat mencabar untuk pelajar sekolah menengah teratas di AS

  • GPT-4O : Menyelesaikan kira-kira 12% daripada masalah (kira-kira 1.8 daripada 15 soalan).
  • Openai O1 : Diselesaikan 74% dengan hanya satu percubaan setiap masalah (sekitar 11.1 daripada 15). Apabila mereka membiarkan model cuba beberapa kali dan mengambil jawapan yang paling biasa, ia menjaringkan 83% . Menggunakan kaedah yang lebih maju, ia mencapai 93% , menyelesaikan kira -kira 13.9 daripada 15 masalah!

Untuk meletakkan perspektif itu, skor 13.9 akan meletakkan O1 di antara 500 pelajar teratas secara nasional dan di atas potongan untuk Olimpik Matematik Amerika Syarikat . Itu adalah kuasa otak yang serius!

Kepakaran sains

Mereka juga menilai O1 pada GPQA-Diamond , penanda aras yang sukar yang menguji pengetahuan dalam kimia, fizik, dan biologi. Openai juga membawa pakar dengan PhD untuk menjawab soalan -soalan ini.

  • Keputusan : O1 mengatasi pakar -pakar manusia ini, menjadi model AI pertama untuk melakukannya pada penanda aras ini! Ini menunjukkan bahawa O1 dapat menyelesaikan masalah saintifik yang kompleks pada tahap yang sangat tinggi.

Pengekodan

Dalam pertandingan pengekodan seperti Codeforces, model baru mencapai persentil ke -89 , menunjukkan mereka boleh menjana dan debug kod kompleks dengan mudah.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Penanda aras lain dan pemahaman visual

Tetapi itu bukan semua! Model O1 juga menunjukkan peningkatan yang ketara dalam bidang lain:

Memahami maklumat visual (persepsi penglihatan)

Model O1 kini boleh mentafsir dan memahami imej -keupayaan yang dikenali sebagai persepsi penglihatan . Ini bermakna ia boleh menganalisis data visual dan menjawab soalan mengenainya, yang merupakan langkah besar untuk AI.

Ujian Pencitraan Perubatan (penanda aras MMMU)

OpenAI diuji O1 pada penanda aras yang mencabar yang dipanggil MMMU (yang bermaksud pemahaman mesin perubatan multimodal ). Ujian ini menilai seberapa baik AI dapat memahami imej perubatan dan membuat penilaian yang tepat, sama seperti tugas yang dilakukan oleh profesional perubatan.

Keputusan : O1 menjaringkan 78.2% pada ujian ini, menjadikannya model AI pertama untuk melaksanakan pada tahap yang setanding dengan pakar manusia dalam pengimejan perubatan. Ini sangat besar kerana memahami dan menafsirkan imej perubatan memerlukan pengetahuan dan ketepatan yang mendalam.

Pelbagai pengetahuan (penanda aras mmlu)

Model O1 juga diuji pada penanda aras MMLU (pemahaman bahasa multitask) , yang meliputi 57 subjek yang berbeza dari sejarah dan kesusasteraan kepada matematik dan sains komputer.

Keputusan : O1 mengatasi GPT-4O dalam 54 daripada 57 subjek! Ini menunjukkan bahawa O1 bukan hanya khusus di satu kawasan -ia menunjukkan pemahaman yang lebih baik merentasi spektrum topik yang luas.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

Dalam istilah yang lebih mudah, keupayaan O1 untuk memahami kedua -dua teks dan imej bermakna ia menjadi lebih serba boleh dan mampu. Sama ada ia menganalisis imej perubatan yang kompleks, menyelesaikan masalah matematik lanjutan, atau menjawab soalan di pelbagai subjek, O1 menetapkan piawaian baru untuk apa yang boleh dilakukan AI.

Bertemu O1-Mini

OpenAI juga telah memperkenalkan O1-Mini , versi yang lebih kecil, lebih cepat, dan lebih murah dari model O1-Preview yang sangat baik pada tugas pengekodan. Ia lebih murah 80% , menjadikannya pilihan yang baik untuk pemaju yang memerlukan kebolehan pemikiran yang kuat tanpa melanggar bank.

Kami juga melepaskan Openai O1-Mini, model penalaran kos yang cekap yang cemerlang di STEM, terutamanya matematik dan coding.https: //t.co/wfvczifev

- Openai (@openai) 12 September 2024

Matematik dengan O1 Mini

Juga Baca: Openai's O1-Mini: Model Permainan yang Mengubah Untuk STEM dengan Penalaran Kos yang Berkesan

Siapa yang boleh menggunakan O1-Preview?

Model-model baru ini adalah penukar permainan bagi sesiapa yang menghadapi masalah yang rumit:

  • Penyelidik dan saintis : Mereka boleh membantu menghidupkan data penjujukan sel atau menghasilkan formula kompleks yang diperlukan dalam bidang seperti fizik kuantum.
  • Pemaju : Membina dan melaksanakan aliran kerja pelbagai langkah menjadi lebih mudah dan lebih cekap.
  • Pelajar dan pendidik : Mereka menawarkan cara baru untuk meneroka konsep yang mencabar dalam matematik dan sains.

Bagaimana untuk mengakses O1-Preview?

CHATGPT Plus dan pengguna pasukan : Anda boleh mengakses model O1-Preview dan O1-Mini di CHATGPT bermula hari ini. Hanya pilih mereka dari pemetik model. Terdapat had mesej mingguan untuk sekarang (30 mesej untuk O1-Preview dan 50 untuk O1-Mini), tetapi OpenAI sedang berusaha untuk meningkatkan had ini tidak lama lagi.

Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah

  • CHATGPT Enterprise dan pengguna EDU : Anda akan mendapat akses kepada kedua -dua model bermula minggu depan.
  • Pemaju : Jika anda berada di API Penggunaan Tahap 5, anda boleh mula bereksperimen dengan model -model ini melalui API hari ini. Sesetengah ciri seperti fungsi panggilan dan streaming belum tersedia, tetapi mereka sedang dalam perjalanan.
  • Pengguna Percuma Chatgpt : Berita Hebat! Openai merancang untuk menjadikan O1-mini tersedia untuk semua pengguna percuma tidak lama lagi.

Keselamatan juga penting

Openai juga telah meningkatkan ciri keselamatan dengan model -model ini. Mereka telah dilatih untuk lebih memahami dan mengikuti garis panduan keselamatan dengan memikirkan peraturan semasa perbualan. Ini bermakna mereka kurang cenderung untuk ditipu untuk melakukan sesuatu yang tidak sepatutnya (anda mungkin pernah mendengar model "jailbreaking" AI).

Dalam ujian keselamatan yang sukar, model O1-Preview menjaringkan 84 daripada 100 , berbanding skor GPT-4O sebanyak 22 . Itulah peningkatan yang ketara, menunjukkan mereka lebih baik tinggal di dalam sempadan yang selamat dan sesuai.

Openai bekerjasama rapat dengan organisasi keselamatan di Amerika Syarikat dan UK, mereka bahkan telah memberikan institusi awal kepada model -model ini untuk membantu penyelidikan dan memastikan segala -galanya sampai par.

Apa yang seterusnya?

Ini hanya permulaan. Openai merancang kemas kini dan penambahbaikan secara tetap kepada model -model ini. Mereka ingin menambah ciri -ciri seperti melayari web, memuat naik fail dan imej, dan banyak lagi untuk menjadikannya lebih membantu.

Mereka juga terus membangunkan model dalam siri GPT bersama siri O1 baru ini, jadi banyak yang perlu diingini.

Pemikiran terakhir

Pelancaran model O1-Preview dan O1-Mini adalah masalah besar di dunia AI. Mereka mewakili langkah penting dalam bagaimana AI boleh membuat alasan melalui masalah yang rumit. Dengan prestasi yang lebih baik dan langkah-langkah keselamatan yang lebih baik, model-model ini ditetapkan untuk menjadi penukar permainan bagi ramai orang yang bekerja pada tugas yang mencabar.

Tinggal di Analytics Vidhya Blog untuk mengetahui lebih lanjut mengenai penggunaan O1 dan O1 Mini!

Atas ialah kandungan terperinci Openai O1: Model baru yang 'berfikir' sebelum menjawab masalah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Bermula dengan Meta Llama 3.2 - Analytics Vidhya Bermula dengan Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) Apr 02, 2025 pm 06:09 PM

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

10 Pelanjutan pengekodan AI generatif dalam kod vs yang mesti anda pelajari 10 Pelanjutan pengekodan AI generatif dalam kod vs yang mesti anda pelajari Apr 13, 2025 am 01:14 AM

Hei ada, pengekodan ninja! Apa tugas yang berkaitan dengan pengekodan yang anda telah merancang untuk hari itu? Sebelum anda menyelam lebih jauh ke dalam blog ini, saya ingin anda memikirkan semua kesengsaraan yang berkaitan dengan pengekodan anda-lebih jauh menyenaraikan mereka. Selesai? - Let &#8217

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi Apr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Menjual Strategi AI kepada Pekerja: Manifesto CEO Shopify Menjual Strategi AI kepada Pekerja: Manifesto CEO Shopify Apr 10, 2025 am 11:19 AM

Memo CEO Shopify Tobi Lütke baru -baru ini dengan berani mengisytiharkan penguasaan AI sebagai harapan asas bagi setiap pekerja, menandakan peralihan budaya yang signifikan dalam syarikat. Ini bukan trend seketika; Ini adalah paradigma operasi baru yang disatukan ke p

Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Apr 02, 2025 pm 06:12 PM

Artikel ini mengulas penjana suara AI atas seperti Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson, dan Descript, memberi tumpuan kepada ciri -ciri mereka, kualiti suara, dan kesesuaian untuk keperluan yang berbeza.

See all articles