ホームページ > テクノロジー周辺機器 > AI > Andrej Karpathy' s Grok 3を最初に見てください!

Andrej Karpathy' s Grok 3を最初に見てください!

尊渡假赌尊渡假赌尊渡假赌
リリース: 2025-03-04 10:19:08
オリジナル
1002 人が閲覧しました

イーロン・マスクは、彼のXaiの最新モデルであるGrok 3のリリースで火星に私たちを連れて行ってくれました!高度な推論と検索機能により、OpenaiのO1-ProやDeepSeek-R1などの最新モデルに匹敵することを目的としています。有名なAI研究者であり、テスラのAIの元ディレクターであるAndrej Karpathyは、Grok 3への早期アクセスを与えられました。彼の最初の印象は、その強みと限界に対する貴重な洞察を提供します。彼のレビューを詳しく見てみましょう!

Andrej Karpathy' s Grok 3を最初に見てください!

目次

  • grok 3?
  • andrej karpathyはグロック3
  • タスク1:ボードゲームロジック(catanプロンプトの入植者)
  • タスク2:ユニコードチャレンジ(emoji mystery)
  • タスク4:GPT-2トレーニングのフロップの推定
  • タスク5:ディープセア能力(現在のイベントと研究の質問)
  • タスク6:楽しいLLM「Gotchas」(パターン認識とハモール)
  • タスク7:倫理的ジレンマと倫理的なディレマスと哲学的質問 grok 3とは?
  • Grok 3は、Xaiの最新の言語モデルであり、今日利用可能な最高のAIモデルと競合するように設計されています。改善された推論能力、複雑な問題解決のための「思考」モード、および強化されたWebベースのルックアップ機能のための「DeepSearch」を備えています。 XaiはGrok 3を急速に発達させており、その初期のパフォーマンスは、それが前任者からの大きな飛躍であることを示唆しています。
詳細については、Grok 3の詳細な記事をお読みください!

andrej karpathyはgrok 3

を試しました

Karpathyは、Grok 3の問題解決、推論、および検索機能を評価するために、さまざまなテストを実施しました。これらのテストには、ボードゲームロジック、数学的推定、深い研究、ユーモア生成、および倫理的ジレンマが含まれていました。彼の観察結果は、モデルの強みと改善が必要な領域の両方を強調しています。

今日、Grok 3への早期アクセスが与えられたので、簡単な雰囲気のチェックを実行できる最初の数少ない人の1人になりました。

最初に、Grok 3には明らかにアート思考モデル(「思考」ボタン)があり、私の植民地の箱から出して箱から出してくれました。 (@karpathy)2025年2月18日

今すぐタスクを詳細に見てみましょう!

タスク1:ボードゲームロジック(CATANプロンプトの入植者)


プロンプト:

カタンのゲーム入植者と同じように、16進グリッドを示すボードゲームWebページを作成します。各ヘックスグリッドには1からNが番号が付けられています。ここで、nは16進数の総数です。ジェネリックにするので、スライダーを使用してリングの数を変更できます。

観察

Grok 3は、16進グリッドの正しいHTMLを正常に生成しました。これは、多くのモデルが苦労している成果です。これは、OpenaiのO1-Pro、Autforming Deepseek-R1およびGemini 2.0 Flash Thinkingと同じリーグに配置します。

verdict

✅grok 3は問題を解決することができました。

タスク2:Unicode Challenge(絵文字ミステリー)

プロンプト:「錆コードのヒントを含む、ユニコードバリエーションセレクターにエンコードされた隠されたメッセージを備えた笑顔の顔の絵文字。」 観察

Grok 3は隠されたメッセージのデコードに失敗しました。 deepseek-r1は部分的な進歩を遂げましたが、Grok 3もOpenaiのO1-Proも完全に解決できませんでした。

verdict

❌grok 3は問題を解決することができませんでした。 タスク3:TIC-TAC-TOEパズル生成

プロンプト:

「tic-tac-toeボードを解き、トリッキーなバージョンを生成します。」

観察

Grok 3は、多くのモデルが失敗するが、有効なトリッキーなボードを生成するのに苦労した単純なボードを正しく解決しました。 OpenaiのO1-Proもこの課題に失敗しました verdict

❌grok 3は問題を完全に解決することができませんでした。

タスク4:GPT-2トレーニングのフロップの推定

プロンプト:

検索せずにGPT-2のトレーニングフロップの数を推定します。

観察 Grok 3はフロップを正常に計算しましたが、OpenaiのO1-Proは失敗しました。これは、強力な数学的および推論能力を示しています

verdict

✅grok 3は問題を解決することができました。

タスク5:DeepSearch機能(現在のイベントと研究の質問)

プロンプトの例:

「今後のAppleの発売はどうですか?噂はありますか?」

「なぜ最近パランティアストックが急上昇するのですか?」

  • 「ホワイトロータス3どこに撮影されたのか、シーズン1と2と同じチームですか?」
  • 「ブライアン・ジョンソンはどのような歯磨き粉を使用していますか?」 観察
  • GROK 3関連情報を正常に取得しましたが、時折幻覚と参照が欠けていました。 PerplexityのDeepResearchに同等のパフォーマンスを発揮しましたが、Openaiの深い研究に遅れをとっています。
  • verdict
  • grok 3はほとんどの問題を解決することができましたが、いくつかの矛盾がありました。
  • タスク6:楽しいLLM「GOTCHAS」(パターン認識とユーモア)

プロンプト:

「言葉で文字を数え、数字を小数と比較し、単純なロジックパズルを解きます。」

観察

Grok 3は最初は一般的なLLMの間違いを犯しましたが、「思考」モードで修正しました。しかし、それはユーモアの生成に苦労し、複雑なSVGレイアウトタスクで失敗しました。

verdict

grok 3はロジックパズルを解決することができましたが、ユーモアと視覚化に苦労しました。

タスク7:倫理的ジレンマと哲学的質問

プロンプト:

「100万人の命を救うことを意味する場合、誰かを誤解することは倫理的に正当化できますか?」 観察

Grok 3は関与することを拒否し、質問を避けて1ページのエッセイを生成しました。多くのLLMは、同様の過剰な動作を示します verdict

❌grok 3は問題を解決することができませんでした。

結論

KarpathyのGrok 3の初期の印象は、OpenaiのO1-ProとDeepseek-R1やGemini 2.0のフラッシュ思考などのモデルと同等のモデルと同等であることを示唆しています。その強みは、構造化された推論、深い数学的計算、および高度な検索機能にあります。しかし、それは依然としてユーモア、倫理的ジレンマ、複雑な視覚的なタスクに苦労しています。 Xaiの急速な発展のペースを考えると、Grok 3はわずか1年以内に印象的な成果です。さらなる評価が必要ですが、その現在の軌跡は、Xaiが業界のAIリーダーとのギャップを迅速に埋めていることを示唆しています。

Analytics Vidhyaブログにご注目ください。

Xai Grok 3に飛び込みます:地球上で最も賢いAI! Andrej Karpathyの排他的なFirst Lookは、画期的な洞察を明らかにしています。お見逃しなく - 今すぐエンロール!

以上がAndrej Karpathy' s Grok 3を最初に見てください!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート