51CTO Technology Stack (WeChat ID: blog51cto) が制作
深夜、OpenAI の最強のライバルである Anthropic が、Claude 3 Haiku、Claude 3 Sonnet、および Claude 3 Sonnet を含む 3 つの新しい SOTA 製品を一度にリリースしました。クロード3 作品集。業界はこう叫んだ。Claude 3 は一連の新しい業界ベンチマークをもたらした。
このうち、Opus は壮大な楽章、Sonnet はソネット、Haiku は俳句、つまり 3 行の短い詩を意味します。
Haiku は AI 市場で最も高速かつ最もコスト効率の高いモデルであると報告されています (図 9)。 arXiv 上のチャートやグラフを含む有益でデータ量の多い研究論文 (約 10,000 トークン) を 3 秒以内に読むことができます。
図 8 に示すように、ほとんどのワークロードにおいて、Sonnet は Claude 2 および Claude 2.1 よりも 2 倍高速であり、より高いレベルのインテリジェンスを備えています。ナレッジ検索やセールスオートメーションなど、素早い対応が必要なタスクに優れています。オーパスは速度においてはクロード 2 および 2.1 と同様ですが、より高いレベルの知能を持っています。
Opus は現在、Anthropic の最もスマートなモデルであり、学部レベルの専門知識 (MMLU)、大学院レベルの専門推論 (GPQA)、基礎数学 (GSM8K) など、人工知能システムの最も一般的な評価ベンチマークで他のモデルよりも優れています。 。複雑なタスクに関して人間レベルに近い理解力と流暢さを示し、一般知能のフロンティアをリードします。
上記の 3 つの Claude 3 モデルはすべて、分析と予測、詳細なコンテンツ作成、コード生成、およびスペイン語、日本語、フランス語などの英語以外の言語での会話において優れた機能を示しています。
さらに、Claude 3 シリーズは、ほぼ完璧なメモリ機能と、200K のコンテキスト ウィンドウを提供する超長いテキスト ウィンドウを備えています。また、100万以上のトークンの入力を受け入れることができ、顧客のニーズに応じて段階的にリリースされます。
全体として、Claude3 には 3 つの衝撃的な機能があります:
1. ドメイン専門家のベンチマーク。金融/医学/哲学の 3 つの専門分野がテスト ベンチマークとして選択され、NVIDIA リサーチ マネージャーのジム ファン氏は、「さまざまなダウンストリーム アプリケーションが何が起こるかを知るために、すべての LLM がこれに従うことをお勧めします。」と述べています。
2. 拒否率分析。 LLM は、多くの「無邪気な質問」に対する過度に慎重な回答によって蔓延していますが、クロード氏は安全な AI 研究に注力し、この分野で努力してきました。
3. 他の主要モデルに匹敵する複雑なビジュアル機能。写真、図、グラフィックス、技術図、PDF、フローチャート、プレゼンテーション スライドなど、さまざまなビジュアル形式に対応します。
実際の評価はどうですか?
あるネチズンは、GPT4 と Claude3 にそれぞれログイン インターフェイス コードを書くように依頼しました。実際の実行テストの結果 (図 13) は、後者の方がアプリ インターフェイスの設計において優れていることを示しています。
以上がClaude3 が GPT4 にレッスンを教えました!オープンAIの最強の敵は深夜の爆弾、全貌解析!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。