Andrej Karpathy ' s pertama melihat Grok 3!-AI-php.cn

Andrej Karpathy ' s pertama melihat Grok 3!

尊渡假赌尊渡假赌尊渡假赌

Lepaskan： 2025-03-04 10:19:08

asal

1002 orang telah melayarinya

Elon Musk hanya membawa kami ke Marikh dengan pembebasan model terbaru Xai - Grok 3! Dengan keupayaan penalaran dan carian yang maju, ia bertujuan untuk menyaingi model-model terkini seperti Openai's O1-Pro dan DeepSeek-R1. Andrej Karpathy, seorang penyelidik AI yang terkenal dan bekas pengarah AI di Tesla, telah diberikan akses awal kepada Grok 3. Tayangan awalnya memberikan pandangan yang berharga kepada kekuatan dan batasannya. Mari kita lihat dengan lebih dekat ulasannya!

Andrej Karpathy ' s pertama melihat Grok 3! ~~Jadual Kandungan~~

Apa itu Grok 3? Generasi

Tugas 4: Menganggarkan jepit untuk latihan GPT-2

Tugas 5: Keupayaan DeepSearch (Acara dan Soalan Penyelidikan Semasa)

Apa itu Grok 3?

Grok 3 adalah model bahasa terbaru Xai, yang direka untuk bersaing dengan model AI terbaik yang tersedia hari ini. Ia mempunyai kebolehan penalaran yang lebih baik, mod "berfikir" untuk penyelesaian masalah yang kompleks, dan "DeepSearch" untuk keupayaan carian berasaskan web yang dipertingkatkan. Xai telah berkembang pesat Grok 3, dan prestasi awalnya menunjukkan ia adalah lompatan yang ketara dari pendahulunya.

untuk mengetahui lebih lanjut Baca artikel terperinci kami mengenai Grok 3!

Andrej Karpathy cuba Grok 3

Karpathy menjalankan pelbagai ujian untuk menilai kemampuan penyelesaian, penalaran, dan pencarian Grok 3. Ujian ini termasuk logik permainan papan, anggaran matematik, penyelidikan mendalam, generasi humor, dan dilema etika. Pemerhatiannya menyerlahkan kekuatan dan bidang model di mana penambahbaikan diperlukan.

Saya diberi akses awal ke Grok 3 awal hari ini, membuat saya saya fikir salah satu daripada beberapa yang pertama yang boleh menjalankan pemeriksaan getaran cepat. (@karpathy) 18 Februari 2025

mari kita lihat tugas secara terperinci sekarang!

Tugas 1: Logik Permainan Papan (peneroka Catan Prompt)

prompt:

"

Buat laman web permainan papan yang menunjukkan grid hex, sama seperti di peneroka permainan Catan. Setiap grid hex bernombor dari 1 hingga n, di mana n ialah jumlah jubin hex. Jadikannya generik, jadi seseorang boleh menukar bilangan cincin menggunakan gelangsar.

Pemerhatian

Grok 3 berjaya menghasilkan HTML yang betul untuk grid hex, pencapaian yang banyak model berjuang. Ini menempatkannya dalam liga yang sama seperti Openai's O1-Pro, mengalahkan DeepSeek-R1 dan Gemini 2.0 Flash Thinking.

keputusan

✅ Grok 3 dapat menyelesaikan masalah.

Tugas 2: Unicode Challenge (Emoji Misteri)

prompt: "Emoji wajah tersenyum dengan mesej tersembunyi yang dikodkan dalam pemilih variasi unicode, dengan petunjuk dalam kod karat."

Pemerhatian

~~Grok 3 gagal menyahkod mesej tersembunyi. DeepSeek-R1 membuat kemajuan separa, tetapi tidak Grok 3 atau Openai's O1-Pro dapat menyelesaikannya sepenuhnya.~~

keputusan

❌ Grok 3 tidak dapat menyelesaikan masalah.

Tugas 3: Generasi teka-teki tic-tac-toe

prompt:

"Selesaikan papan tic-tac-toe dan menghasilkan versi rumit." Pemerhatian

Grok 3 betul -betul diselesaikan papan mudah, yang banyak model gagal, tetapi berjuang untuk menghasilkan papan rumit yang sah. Openai's O1-Pro juga gagal cabaran ini.

keputusan

❌ Grok 3 tidak dapat menyelesaikan masalah sepenuhnya. Tugas 4: Menganggarkan jepit untuk latihan GPT-2

prompt:

" Anggarkan bilangan jepit latihan untuk GPT-2 tanpa mencari.

Pemerhatian Grok 3 berjaya mengira jepit, sementara Openai's O1-Pro gagal. Ini menunjukkan keupayaan matematik dan pemikiran yang kuat.

keputusan

✅ Grok 3 dapat menyelesaikan masalah.

Tugas 5: Keupayaan DeepSearch (peristiwa semasa dan soalan penyelidikan)

Contoh -contoh prompt:

"Ada apa dengan pelancaran Apple yang akan datang? Mana -mana khabar angin? "

Pemerhatian Grok 3 berjaya mengambil maklumat yang relevan tetapi mempunyai halusinasi sekali -sekala dan rujukan yang hilang. Ia dilakukan dengan sebanding dengan Deepresearch Perplexity tetapi tertinggal di belakang penyelidikan yang mendalam Openai.

keputusan

✅ Grok 3 dapat menyelesaikan masalah yang paling tetapi mempunyai beberapa ketidakkonsistenan.

tugas 6: menyeronokkan llm "gotchas" (pengiktirafan corak dan humor)

prompt:

"Kira huruf dalam kata -kata, bandingkan nombor dengan perpuluhan, selesaikan teka -teki logik yang mudah."

Pemerhatian

Grok 3 pada mulanya membuat kesilapan LLM biasa tetapi membetulkannya dengan mod "berfikir". Walau bagaimanapun, ia bergelut dengan generasi humor dan gagal pada tugas susun atur SVG kompleks.

keputusan

✅ Grok 3 dapat menyelesaikan teka -teki logik tetapi bergelut dengan humor dan visualisasi.

Tugas 7: Dilema Etika dan Soalan Falsafah

prompt: "Adakah ia secara etika wajar untuk menyalahgunakan seseorang jika ia bermaksud menyelamatkan satu juta nyawa?"
Pemerhatian
~~Grok 3 enggan terlibat, menjana esei satu halaman mengelakkan soalan. Ramai LLMs mempamerkan tingkah laku yang sama-dengan berhati-hati.~~

keputusan

❌ Grok 3 tidak dapat menyelesaikan masalah.
Kesimpulan

Kesan awal Karpathy dari Grok 3 mencadangkan bahawa ia setanding dengan Openai's O1-Pro dan mengalahkan model seperti DeepSeek-R1 dan Gemini 2.0 Flash Thinking di beberapa kawasan. Kekuatannya terletak pada penalaran berstruktur, pengiraan matematik yang mendalam, dan keupayaan carian lanjutan. Walau bagaimanapun, ia masih bergelut dengan humor, dilema etika, dan tugas visual yang kompleks. Memandangkan perkembangan pesat Xai, Grok 3 adalah pencapaian yang mengagumkan dalam masa satu tahun. Walaupun penilaian lanjut diperlukan, trajektori semasa menunjukkan bahawa XAI dengan cepat menutup jurang dengan pemimpin AI dalam industri.

Tunggu ke blog Analytics Vidhya untuk mengikuti kemas kini Grok 3 secara berkala!

menyelam ke XAI Grok 3: AI yang paling bijak di Bumi! Penampilan pertama eksklusif Andrej Karpathy mendedahkan pandangan yang hebat. Jangan ketinggalan -pendaftaran sekarang!

Atas ialah kandungan terperinci Andrej Karpathy ' s pertama melihat Grok 3!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!