Claude3がリリースされましたが、GPT-4を完全に超えるのでしょうか?

WBOY
リリース: 2024-03-05 23:01:15
転載
446 人が閲覧しました

先ほど、Anthropic は、幅広い認知タスクにわたって新しい業界ベンチマークを設定する Claude 3 モデル シリーズの発売を発表しました。この製品群には、Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus の 3 つの最先端モデルが含まれており、機能の高い順に配置されています。後続の各モデルはますます強力なパフォーマンスを提供し、ユーザーは特定のアプリケーションに合わせてインテリジェンス、速度、コストの最適なバランスを選択できるようになります。

Opus と Sonnet は claude.ai と Claude API で利用できるようになり、後者は 159 か国で完全に利用できるようになりました。俳句も近日公開予定です。

Claude 3 モデル シリーズ

Claude3 发布,或将全面超越 GPT-4?

#インテリジェンスの新しい標準

Opus、最も一般的な AI システムにおける Anthropic の最もインテリジェントなモデル 優れたパフォーマンス学部レベルの専門知識(MMLU)、大学院レベルの専門推論(GPQA)、基礎数学(GSM8K)などを含む評価ベンチマークに関するもの。複雑なタスクに関して人間レベルに近い理解力と流暢さを示し、一般知能のフロンティアをリードします。

Claude 3 モデルは、分析と予測、詳細なコンテンツ作成、コード生成、およびスペイン語、日本語、フランス語などの英語以外の言語での会話配信における強力な機能を実証します。

複数の機能ベンチマークで、Claude 3 モデルを Anthropic モデルと比較する方法は次のとおりです[1]:

Claude3 发布,或将全面超越 GPT-4?

ほぼ即時の結果

Claude 3 モデルは、即時かつリアルタイムで応答する必要があるライブ顧客チャット、オートコンプリート、およびデータ抽出タスクをサポートできます。

インテリジェンスの分野では、Haiku は市場で最速の速度を備えた、非常にコスト効率の高いモデルです。チャートやグラフを含む情報密度の高い arXiv 研究論文 (約 10,000 トークン) を 3 秒以内に解読することができました。 Anthropic は近い将来さらにパフォーマンスを最適化し、Haiku のパフォーマンスも向上する予定です。

Sonnet は、大部分のワークロードにおいて、Claude 2 および Claude 2.1 よりも 2 倍以上高速で、より高いレベルのインテリジェンスを備えています。ナレッジ検索やセールスオートメーションなど、素早い対応が必要なタスクに優れています。 Opus は、Claude 2 および 2.1 と速度は似ていますが、より高いレベルのインテリジェンスを備えています。

強力なビジュアル機能

Claude 3 モデルは、他の主要モデルと同等の高度なビジュアル機能を備えています。写真、チャート、グラフ、技術図など、さまざまなビジュアル形式を処理できます。 Anthropic は、この新しいモダリティを企業顧客に提供できることに特に興奮しています。企業顧客の中には、ナレッジ ベースの 50% を PDF、フローチャート、プレゼンテーション スライドなどのさまざまな形式でエンコードしている企業もあります。

Claude3 发布,或将全面超越 GPT-4?

拒否の削減

以前のクロード モデルでは、文脈の理解が不足していることを示す不必要な拒否が頻繁に行われていました。 Anthropic はこの点で大幅な進歩を遂げました。Opus、Sonnet、Haiku は、システムの警戒ラインに近づくプロンプトへの応答を拒否する可能性が大幅に低くなり、以前のモデルよりもはるかに低くなります。以下の図に示すように、Claude 3 モデルはリクエストをより微妙に理解し、実際の害を特定し、無害なプロンプトに応答することを拒否する頻度が大幅に低くなります。

Claude3 发布,或将全面超越 GPT-4?

精度の向上

あらゆる規模の企業が顧客にサービスを提供するために Anthropic のモデルに依存しているため、Anthropic のモデル出力は大規模になり、高い精度を維持することが重要です。これを評価するために、Anthropic は、現在のモデルの既知の弱点を対象とした、複雑で事実に基づく質問の大規模なセットを使用しました。 Anthropic では、応答を正解、不正解 (または幻覚)、不確実性の認めに分類します。モデルは、誤った情報を提供するのではなく、答えがわからないことを表現します。 Claude 2.1 と比較して、Opus はこれらの挑戦的な自由回答形式の質問の精度 (または正解) が 2 倍向上すると同時に、不正解のレベルも減少しました。

Anthropic は、より信頼できる回答を生成することに加えて、Anthropic の Claude 3 モデルでの引用を間もなく有効にし、回答を検証するために参考文献内の正確な文を示すことができるようになります。

Claude3 发布,或将全面超越 GPT-4?

長いコンテキストとほぼ完璧なリコール

Claude 3 シリーズ モデルは、発売時に 200,000 マークのコンテキスト ウィンドウを提供します。ただし、3 つのモデルはすべて 100 万トークンを超える入力を受け入れることができ、Anthropic は処理能力の向上を必要とする特定の顧客にトークンを提供する可能性があります。

長いコンテキスト キューを効果的に処理するには、モデルに強力なリコール機能が必要です。 「Needle In A Haystack」(NIAH) は、大規模なデータ コーパスから情報を正確に呼び出す測定モデルの能力を評価します。 Anthropic は、プロンプトごとに 30 個のランダムなピンと質問のペアの 1 つを使用し、クラウドソーシングされた多様な文書コーパスでテストすることにより、このベンチマークの堅牢性を強化します。

Claude 3 Opus は、99% を超える精度でほぼ完璧な再現を達成するだけでなく、場合によっては、元のテキスト制限に人為的に挿入されたように見える「針」文を識別することで、評価自体を識別することさえあります。

Claude3 发布,或将全面超越 GPT-4?

責任ある設計

Anthropic は、機能とともに信頼性を提供するために、Claude 3 シリーズのモデルを開発しました。 Anthropic には、誤った情報や CSAM から生物虐待、選挙妨害、自律複製スキルに至るまで、さまざまなリスクを追跡および軽減する専門のチームがいくつかあります。 Anthropic は、Anthropic のモデルのセキュリティと透明性を向上させ、新しい手法から生じる可能性のあるプライバシーの懸念を軽減するために Anthropic のモデルを調整するために、Constitutional AI などの手法の開発を続けています。

ますます複雑になるモデルにおけるバイアスに対処することは継続的な取り組みであり、Anthropic はこの新しいリリースで進歩を遂げています。モデル カードに示されているように、バイアス質問応答ベンチマーク (BBQ) によると、Claude 3 は Anthropic の以前のモデルよりもバイアスが少ないことを示しています。 Anthropic は、モデルが特定の党派的な立場に偏らないようにするため、偏見を軽減し、モデルの中立性を高める技術の進歩に引き続き取り組んでいます。

Claude 3 モデル シリーズは、以前のモデルと比較して生物学的知識、ネットワーク関連の知識、自律性が向上していますが、AI 安全性レベル 2 (Anthropic の責任あるスケーリング ポリシーによる) ASL-2 にとどまっています。 Anthropic のレッドチーム評価 (Anthropic のホワイトハウスの約束と 2023 年の米国大統領令に沿って実施) は、現在のモデルには壊滅的なリスクが生じる可能性は無視できると結論付けました。 Anthropic は今後も将来のモデルを注意深く監視し、ASL-3 の閾値にどれだけ近づいているかを評価していきます。追加のセキュリティの詳細は、Claude 3 モデル カードに記載されています。

より使いやすくなりました

Claude 3 モデルは、複雑な複数ステップの命令に従う際のパフォーマンスが向上しました。彼らは、ブランドの声と対応ガイドラインに従い、ユーザーが信頼できる顧客対応エクスペリエンスを開発することに特に優れています。さらに、Claude 3 モデルは、JSON 形式などの一般的な構造化出力の生成のパフォーマンスが向上しており、自然言語分類や感情分析などのユースケースについて Claude を指導することが容易になります。

モデルの詳細

Claude 3 Opus は Anthropic の最もスマートなモデルで、非常に複雑なタスクにおいて市場で最高のパフォーマンスを示します。無制限のプロンプトや目に見えない状況でも、人間のような理解で見事に流れます。 Opus は、Anthropic に、生成 AI で可能なことの限界を示しています。

Claude3 发布,或将全面超越 GPT-4?

Claude 3 Sonnet は、特にエンタープライズ ワークロードにおいて、インテリジェンスとスピードの理想的なバランスを実現します。同等の製品よりも低コストで強力なパフォーマンスを実現し、大規模な AI 導入に耐えられるように設計されています。

Claude3 发布,或将全面超越 GPT-4?

Claude 3 Haiku は、Anthropic の最速かつ最もコンパクトなモデルで、ほぼ瞬時の応答が可能です。単純なクエリやリクエストに比類のない速度で応答します。ユーザーは、人間の対話をシミュレートするシームレスな AI エクスペリエンスを構築できるようになります。

Claude3 发布,或将全面超越 GPT-4?

モデルの利用可能性

現在、Opus と Sonnet は Anthropic の API で利用可能であり、一般公開されており、開発者はサインアップして今すぐ開始できます これらのモデルを使用してください。俳句も近日公開予定です。 Sonnet は claude.ai の無料エクスペリエンスを強化しており、Opus は Claude Pro 加入者向けに利用可能です。

Sonnet は、Amazon の Bedrock および Google Cloud の Vertex AI Model Garden からも入手でき、Opus と Haiku も近日中に提供される予定です。

よりスマート、より速く、より安全に

Anthropic は、モデル インテリジェンスが限界に達するのは遠いと考えており、今後数か月間にわたって Claude 3 モデル シリーズを頻繁に更新する予定です。 Anthropic は、特にエンタープライズ ユース ケースや大規模展開向けに、Anthropic モデルの機能を強化する一連の機能をリリースできることを嬉しく思います。これらの新機能には、ツールの使用法 (関数呼び出しとも呼ばれます)、対話型コーディング (REPL とも呼ばれます)、およびより高度なエージェント機能が含まれます。

以上がClaude3がリリースされましたが、GPT-4を完全に超えるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:chaincatcher.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート