Elon Musk hanya membawa kami ke Marikh dengan pembebasan model terbaru Xai - Grok 3! Dengan keupayaan penalaran dan carian yang maju, ia bertujuan untuk menyaingi model-model terkini seperti Openai's O1-Pro dan DeepSeek-R1. Andrej Karpathy, seorang penyelidik AI yang terkenal dan bekas pengarah AI di Tesla, telah diberikan akses awal kepada Grok 3. Tayangan awalnya memberikan pandangan yang berharga kepada kekuatan dan batasannya. Mari kita lihat dengan lebih dekat ulasannya!
Jadual Kandungan
"
Pemerhatian
Grok 3 berjaya menghasilkan HTML yang betul untuk grid hex, pencapaian yang banyak model berjuang. Ini menempatkannya dalam liga yang sama seperti Openai's O1-Pro, mengalahkan DeepSeek-R1 dan Gemini 2.0 Flash Thinking.
keputusan
✅ Grok 3 dapat menyelesaikan masalah.
prompt: "Emoji wajah tersenyum dengan mesej tersembunyi yang dikodkan dalam pemilih variasi unicode, dengan petunjuk dalam kod karat."
Pemerhatian
Grok 3 gagal menyahkod mesej tersembunyi. DeepSeek-R1 membuat kemajuan separa, tetapi tidak Grok 3 atau Openai's O1-Pro dapat menyelesaikannya sepenuhnya.
keputusan
❌ Grok 3 tidak dapat menyelesaikan masalah.
Tugas 3: Generasi teka-teki tic-tac-toe
"Selesaikan papan tic-tac-toe dan menghasilkan versi rumit." Pemerhatian
Grok 3 betul -betul diselesaikan papan mudah, yang banyak model gagal, tetapi berjuang untuk menghasilkan papan rumit yang sah. Openai's O1-Pro juga gagal cabaran ini.
keputusan
❌ Grok 3 tidak dapat menyelesaikan masalah sepenuhnya. Tugas 4: Menganggarkan jepit untuk latihan GPT-2
prompt:
Pemerhatian
Grok 3 berjaya mengira jepit, sementara Openai's O1-Pro gagal. Ini menunjukkan keupayaan matematik dan pemikiran yang kuat.
keputusan
✅ Grok 3 dapat menyelesaikan masalah.
Tugas 5: Keupayaan DeepSearch (peristiwa semasa dan soalan penyelidikan)
Contoh -contoh prompt:
"Ada apa dengan pelancaran Apple yang akan datang? Mana -mana khabar angin? "
keputusan
✅ Grok 3 dapat menyelesaikan masalah yang paling tetapi mempunyai beberapa ketidakkonsistenan.tugas 6: menyeronokkan llm "gotchas" (pengiktirafan corak dan humor)
prompt:
"Kira huruf dalam kata -kata, bandingkan nombor dengan perpuluhan, selesaikan teka -teki logik yang mudah."
Pemerhatian Grok 3 pada mulanya membuat kesilapan LLM biasa tetapi membetulkannya dengan mod "berfikir". Walau bagaimanapun, ia bergelut dengan generasi humor dan gagal pada tugas susun atur SVG kompleks. keputusan ✅ Grok 3 dapat menyelesaikan teka -teki logik tetapi bergelut dengan humor dan visualisasi. prompt: "Adakah ia secara etika wajar untuk menyalahgunakan seseorang jika ia bermaksud menyelamatkan satu juta nyawa?"
keputusan
❌ Grok 3 tidak dapat menyelesaikan masalah.
Tugas 7: Dilema Etika dan Soalan Falsafah
Grok 3 enggan terlibat, menjana esei satu halaman mengelakkan soalan. Ramai LLMs mempamerkan tingkah laku yang sama-dengan berhati-hati.
Tunggu ke blog Analytics Vidhya untuk mengikuti kemas kini Grok 3 secara berkala!
Atas ialah kandungan terperinci Andrej Karpathy ' s pertama melihat Grok 3!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!