Grok-2 が登場しました。画像生成と画像認識が可能で、その性能は GPT-4o に匹敵します。マスク氏: ロケットのように発展しています。-AI-php.cn

Grok-2 が登場しました。画像生成と画像認識が可能で、その性能は GPT-4o に匹敵します。マスク氏: ロケットのように発展しています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2024-08-14 20:01:02

オリジナル

1101 人が閲覧しました

GPT-5 はまだ出ていませんが、Grok が追いつきました。

Google と OpenAI がお互いからニュースを入手していた同じ日に、マスクの xAI もアイドル状態ではありませんでした。

北京時間水曜日午後、xAIは新世代Grok 2大型モデルを正式にリリースしました。

Grok-2 が登場しました。画像生成と画像認識が可能で、その性能は GPT-4o に匹敵します。マスク氏: ロケットのように発展しています。

サードパーティの大規模モデルベンチマーク組織である Chatbot Arena も、LMSYS リストの結果リストを直ちに更新しました。 Grok 2 (sus-column-r) の初期モデルは、Claude 3.5 Sonnet や GPT-4-Turbo を上回り、GPT-4o (バージョン 0513) に次ぐ 4 位にランクされています。

コーディング、複雑な問題、数学に優れています。

マスク氏は思わず「Grokの推進速度はロケットのようだ」と自慢しました。

これはチャットボットアリーナがテストする予定だという初期バージョンのスコアにすぎないことに注意してください。将来的には正式版になります。

Musk 氏は、Grok-2 は最も高度な推論機能を備えた高度な言語モデルであると述べました。新世代には、Grok-2 と Grok-2 mini の 2 つのバージョンが含まれています。両方のモデルは現在、Grok ユーザー向けに X プラットフォームでリリースされています。現在、X Premium および Premium+ ユーザーはすでに Grok-2 および Grok-2 mini モデルを体験できます。

以前の Grok-1.5 と比較して、Grok-2 の初期プレビューバージョンは大幅な進歩を遂げ、チャット、推論、コーディングなどで優れた機能を実証しました。 xAIによると、Grok-2とGrok-2 miniは現在X上でベータ版であり、今月後半にはエンタープライズAPI経由で利用可能になる予定だという。

新モデルがリリースされてから 30 分も経たないうちに、あるネチズンはすでに Grok 2 mini を使用して「私とマスクがホットドッグを食べている」画像を生成していました。

ワシントンの肖像画を生成する他の方法を試してください。

Grok 2 mini を使って空飛ぶ猫を生成しようとした人もいます。

他の人がテスラモデル Y を作りましたが、似ていますか?

Grok-2 のパフォーマンス PK

xAI が Grok-2 の初期バージョン「sus-column-r」をチャットボットアリーナに導入すると、他の人気のあるスイッチと競合することがわかりますソースのパフォーマンス比較モデル。

全体的な Elo スコアに関しては、Grok-2 は Claude シリーズモデルや GPT-4 のほとんどのバージョンよりも優れたパフォーマンスを発揮します。もちろん、リストの最初にあるのは、OpenAI が最近リリースしたばかりの GPT-4o (バージョン 8 月 8 日) です。

下の写真は、Grok-2と他の人気モデルの勝率の比較を示しています。

下の図は、Grok 1.5 と Grok 2 の 2 つのバージョン間の事実に基づいた勝率の比較を示しています。

xAI は、このプロセスを採用して Grok 2 モデルを評価し、AI Tutor を使用してさまざまなタスクでモデルと実際に対話します。各対話中に、Grok 2 は AI 講師に 2 つの応答を提供し、ガイドに記載されている特定の基準に基づいて最適な応答を選択します。

xAI は、2 つの主要な領域、つまり命令に従うことと、正確で本物の情報を提供することにおけるモデルのパフォーマンスの評価に重点を置いています。その結果、Grok 2 では、取得したコンテンツから推論し、欠落情報の正確な特定、一連のイベントによる推論、無関係な投稿の破棄などのツールを使用する能力が大幅に向上していることがわかりました。

ベンチマークスコア

xAIは、推論、読解、数学、科学、コーディングなどの幅広い学術ベンチマークにわたってGrok-2モデルを評価しました。

Grok-2 と Grok-2 mini はどちらも、以前の Grok-1.5 モデルに比べて大幅に改善されています。パフォーマンスは、大学院レベルの科学知識 (GPQA)、一般知識 (MMLU、MMLU-Pro)、数学コンテストの問題 (MATH) などの分野で他の最先端のモデルと同等です。

さらに、Grok-2 は視覚ベースのタスクでも優れたパフォーマンスを発揮し、視覚的な数学的推論 (MathVista) と文書ベースの質問応答 (DocVQA) で顕著なパフォーマンスを発揮します。

Grok 2 のインターフェイスと機能の「大幅な改造」

過去数か月間、xAI は x プラットフォームでの Grok エクスペリエンスを継続的に改善してきました。さて、次世代 Grok 2 の発売に伴い、xAI は以下に示すようにインターフェースを再設計しました。

もちろん、xAI は、Conway の「Game of Life」の簡単な実装など、いくつかの新機能を提供します。

もう一つの例は、マルチモーダル理解能力（写真を見て話す）です。

その中で、Grok-2 は xAI の最も高度な AI アシスタントであり、テキストおよび視覚的な理解機能と、X アプリケーションの Grok タブからアクセスできる X プラットフォームからの統合されたリアルタイム情報を備えています。

Grok-2 mini は、速度と応答品質のバランスが取れた小型ながら強力なモデルです。

前任者と比較して、Grok-2 はより直観的で、より制御可能で、より柔軟であり、答えを探したり、共同で執筆したり、コーディングタスクを解決したりするなど、さまざまなタスクに適しています。

さらに、xAI はスタートアップ Black Forest Labs と提携して、X 上の Grok の機能を拡張するために FLUX.1 モデルを実験しています。

今月後半、xAI は新しいエンタープライズ API プラットフォームを通じて Grok-2 および Grok-2 mini も開発者にリリースします。今後の API は、グローバルな低遅延アクセスのためのマルチリージョン推論展開を可能にする新しいカスタムテクノロジースタックに基づいて構築されています。

もちろん、xAI は、必須の多要素認証 (例: Yubikey、Apple TouchID、または TOTP の使用) など、いくつかの強化されたセキュリティ機能も提供します。

ご覧のとおり、2023 年 11 月の Grok-1 の打ち上げ以来、xAI はこのシリーズのモデルを驚くべき速度で進歩させてきました。まもなく、マルチモーダルを理解できるプレビューバージョンがリリースされる予定です。 xAI の後の焦点は、新しいコンピューティングクラスターを通じてモデルの中核となる推論機能を向上させることになります。

^{ブログアドレス: https://x.ai/blog/grok-2}

以上がGrok-2 が登場しました。画像生成と画像認識が可能で、その性能は GPT-4o に匹敵します。マスク氏: ロケットのように発展しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。