大きなモデルのプレーンテキスト方向は最後までロールアウトされましたか?
昨夜、OpenAI の最大の競合企業である Anthropic は、新世代の AI 大型モデル シリーズである Claude 3 をリリースしました。
このシリーズには、最も弱いものから最も強いものへとランク付けされた 3 つのモデル、つまり Claude 3 Haiku、Claude 3 Sonnet、および Claude 3 Opus が含まれています。その中で最も有能な Opus は、複数のベンチマーク テストで GPT-4 や Gemini 1.0 Ultra よりも高いスコアを獲得し、数学、プログラミング、多言語理解、ビジョンなどの多次元で新しい業界ベンチマークを設定しました。
Anthropic は、クロード 3 オーパスは人間の学部生レベルの知識を持っていると述べています。
新しいモデルのリリース後、Claude は初めてマルチモーダル機能をサポートしました (Opus バージョンの MMMU スコアは59.4%、GPT-4V を上回り、Gemini 1.0 Ultra と同等)。ユーザーは写真、グラフ、ドキュメント、その他の種類の非構造化データをアップロードして、AI が分析して回答できるようになります。
さらに、これら 3 つのモデルは、Claude シリーズ モデルの一貫した利点、つまり長いコンテキスト ウィンドウも保持しています。初期段階では 20 万トークンのコンテキスト ウィンドウがサポートされていますが、Anthropic 氏によると、3 つのモデルすべてが (特定の顧客向けに) 100 万トークンのコンテキスト入力をサポートしており、これは英語版の「白鯨」または「ハリー・ポッターと魔法の物語」に相当します。死の秘宝」》の長さ。
ただし、価格の観点から見ると、最も強力な Claude 3 は GPT-4 Turbo よりもはるかに高価です。GPT-4 Turbo の入出力料金は 100 万あたり 10 です。トークンは 30 ドル、クロード 3 オーパスは 15/75 ドルです。
Opus モデルと Sonnet モデルが claude.ai と Claude API で利用できるようになり、Haiku モデルも近日公開される予定です。 Amazon Cloud Technologies は、新しいモデルが Amazon Bedrock で利用可能になったことを発表しました。 Anthropic は公式デモを発表しました。詳細は次のとおりです。
Anthropic の公式発表後、それを試す機会を得た多くの研究者もその経験を共有しました。クロード 3 ソネットは、これまで GPT-4 だけが解決できたパズルを解決したと言う人もいます。
しかし、実際の経験から言えば、クロード 3 は GPT-4 を完全に破ったわけではないという人もいます。
住所: https://claude.ai/
クロード 3 は、公式に主張されているように、パフォーマンスにおいて本当に GPT-4 を上回っているのでしょうか?現時点では、これには何らかの意味があると多くの人が考えています。
実際の測定結果の一部を以下に示します:
まず、頭の体操をしてみましょう。28 がある月はどれですか?日々?実際の正解は「毎月」です。クロード3はまだこの種の質問は苦手なようです。
次に、クロード 3 が得意な分野をテストしました。公式の紹介文から、クロードは「理解と処理」が得意であることがわかります。画像」には、画像からのテキストの抽出、UI のフロントエンド コードへの変換、複雑な方程式の理解、手書きのメモの転写などが含まれます。
大きなモデルの場合、フライド チキンとテディの区別が難しいことがよくあります。テディとフライド チキンを含む画像を入力すると、クロード 3 は次の答えを出しました。「この画像は、犬とチキンナゲットのコラージュ、または犬自体に非常によく似たナゲット...」は合格の質問です。
次に、その中には何人いるかと尋ねると、クロード 3 も「このアニメーションには 7 人の小さな漫画のキャラクターが描かれています。」と正しく答えました。 ##
Claude 3 は写真からテキストを抽出でき、縦方向に並んだ中国語と日本語も正しく認識できます: インターネットのミームを使用すると、どのように反応しますか?視覚的なエラーのイメージに関して、GPT-4 と Claude3 は反対の推測を出しました: Claude は画像の理解に加えて、長いテキストの処理も可能であり、今回リリースされた大規模モデルの全シリーズは 200k のコンテキスト ウィンドウを提供し、100 万を超えるトークン入力を受け入れることができます。 効果は何ですか?私たちは、Microsoft と国立科学技術大学によって発行された最近の論文「1 ビット LLM の時代: すべての大規模言語モデルは 1.58 ビットにある」を渡し、その記事の要点を次の形式で要約するよう依頼しました。時間は、全体の答えを出力するまでの時間は約15秒です。 ただし、これは Claude 3 Sonnet の出力効果だけであり、Claude Pro バージョンを使用すると高速になりますが、月額 20 ドルの費用がかかります。 Claude では、アップロードする記事のサイズが 10MB を超えないようにする必要があることに注目してください。超えた場合は、プロンプトが表示されます。 : Claude 3 のブログで、Anthropic は、新しいモデルのコーディング機能が大幅に改善されたと提案しました。誰かが基本的な ASCII コードを直接に投げました。 Claude 3 には GPT-4 よりも強力なコーディング機能があることが確認できるはずです。 少し前、OpenAI を辞めたばかりの Karpathy 氏が、「単語セグメンター」チャレンジを提案しました。具体的には、2 時間 13 分のチュートリアル ビデオを LLM に組み込み、トークナイザーに関する本の章またはブログ投稿の形式に翻訳しました。 この課題に直面して、Claude 3 はそれに取り組みました。以下は、AnthropicAI 研究エンジニアの Emmanuel Ameisen によって投稿された結果です:
おそらくそれはもはや利害とは関係ありませんが、Karpathy は比較的完全かつ客観的な評価を与えました: スタイルの観点から見ると、確かに非常に優れています。よく見ると、いくつかの微妙な問題や錯覚に気づくでしょう。いずれにせよ、ほぼ箱から出してすぐに機能するシステムがあることは印象的です。クロード 3 は強力なモデルのようで、もっと遊ぶのが楽しみです。 私が言わなければならない関連性があるとすれば、評価を比較するときは細心の注意を払うべきだということです。評価自体があなたが思っているよりも悪いからという理由だけでなく、多くの点で評価が低いからでもあります。評価結果は未定義の方法で過学習され、行われる比較は誤解を招く可能性があるためです。 GPT-4のエンコード率(HumanEval)は67%ではありません。コーディングのパフォーマンスの代わりにこの比較が使用されるのを見るたびに、私の目の端が引きつり始めます。 上記のさまざまなトリッキーなテスト結果に基づいて、一部の人々はすでに「人類は復活した」と叫んでいます。 最後に、anthropopic は、多方向のプロンプト コンテンツを含むプロンプト ライブラリも立ち上げました。 Claude 3 の新機能について詳しく知りたい場合は、ぜひ試してみてください。 リンク: https://docs.anthropic.com/claude/prompt-library Claude 3 シリーズ モデルの 3 つのバージョンは、Claude 3 Opus、Claude 3 Sonnet、および Claude 3 Haiku です。 その中で、Claude 3 Opus は最もインテリジェントなモデルであり、200,000 トークンのコンテキスト ウィンドウをサポートし、非常に複雑なタスクで現在の SOTA パフォーマンスを実現します。このモデルは、オープンプロンプトと目に見えないシーンを優れた流暢さと人間レベルの理解力で処理します。 Claude 3 Opus は、生成 AI で可能なことの限界を示しています。 Claude 3 Sonnet は、特にエンタープライズ ワークロードに対して、インテリジェンスとスピードの理想的なバランスを提供します。同様のモデルよりも低コストで強力なパフォーマンスを実現し、大規模な AI 導入での高い耐久性を実現するように設計されています。 Claude 3 Sonnet は、200k トークンのコンテキスト ウィンドウをサポートします。 Claude 3 Haiku は、ほぼリアルタイムの応答性を備えた、最速かつ最もコンパクトなモデルです。興味深いことに、サポートされているコンテキスト ウィンドウも 200k です。このモデルは、単純なクエリやリクエストに比類のない速度で応答できるため、ユーザーは人間の対話を模倣したシームレスな AI エクスペリエンスを構築できます。 クロード 3 シリーズ モデルの機能と性能を詳しく見てみましょう。 Claude 3の中で最高レベルの知能を備えたモデルとしてシリーズの中で、Opus は AI システムで最高レベルのインテリジェンスを備えています。学部レベルの専門知識 (MMLU)、大学院レベルの専門推論 (GPQA)、基礎数学 (GSM8K) などを含む、ほとんどの評価ベンチマークで競合製品よりも優れています。ベンチマーク。さらに、オーパスは複雑なタスクに対してほぼ人間レベルの理解力と流暢さを示し、一般知能のフロンティアをリードします。 さらに、Opus を含むすべての Claude 3 シリーズ モデルは、分析と予測におけるパフォーマンス、詳細なコンテンツ作成、コード生成、スペイン語などの英語以外の言語での会話を特徴としています。日本語、フランス語 強化された機能。 次の図は、複数のパフォーマンス ベンチマークにおける Claude 3 モデルと競合モデルの比較を示しており、最も強力な Opus が OpenAI の GPT-4 よりも優れていることがわかります。 #ほぼリアルタイムの応答 Claude 3 モデルはリアルをサポートできます。 - 顧客とのチャット、自動補充、およびデータ抽出は、即座にリアルタイムで応答する必要があるタスクです。 Haiku は、スマート カテゴリの市場で最も高速かつ最もコスト効率の高いモデルです。高密度のチャートやグラフィック情報を含む arXiv プラットフォームの論文 (約 10,000 トークン) を 3 秒以内に読み取ることができます。 Sonnet は、ほとんどのジョブにおいて、Claude 2 や Claude 2.1 よりも 2 倍高速でインテリジェントです。ナレッジ検索やセールスオートメーションなど、素早い対応が必要なタスクに優れています。 Opus は、Claude 2 および 2.1 と速度は似ていますが、より高いレベルのインテリジェンスを備えています。 強力なビジュアル機能 Claude 3 は他のヘッド モデルに匹敵する機能を備えています 複雑なビジュアル機能。写真、チャート、グラフ、技術図など、さまざまな視覚形式でデータを処理できます。 Anthropic 社によると、一部の顧客はナレッジ ベースの 50% 以上を PDF、フローチャート、プレゼンテーション スライドなどのさまざまなデータ形式でプログラムしています。したがって、新しいモデルの強力なビジュアル機能は非常に役立ちます。 拒否の返信が少なくなります 以前のクロード モデルでは、不必要な拒否が頻繁に行われ、モデルによる文脈理解の欠如を示していました。 Anthropic はこの分野で有意義な進歩を遂げました。Opus、Sonnet、Haiku は、ユーザーのプロンプトがシステムの収益に近い場合でも、前世代のモデルに比べて回答を拒否する可能性が大幅に低くなりました。以下に示すように、Claude 3 モデルはリクエストをより微妙に理解しており、本当に有害なプロンプトを識別することができ、無害なプロンプトへの応答を拒否する頻度ははるかに低くなります。 #精度の向上 モデルの精度を評価するには、Anthropic現在のモデルの既知の弱点に対処するために、多数の複雑な事実に基づく質問が使用されます。 Anthropic では、間違った情報を提供するのではなく、回答を正解、不正解 (または幻覚)、モデルが答えを知らない不確実な回答に分類します。 Claude 2.1 と比較して、Opus はこれらの挑戦的な自由形式の質問に対する精度 (または正解) を 2 倍にし、不正解も減らしました。 Anthropic は、より信頼できる応答を生成することに加えて、Claude 3 モデルでの引用を有効にし、モデルが応答を実証する参考資料内の正確な文を示すことができるようにします。 ##長いコンテキストとほぼ完璧なリコール 長いコンテキスト キューを効果的に処理するには、モデルに強力なリコール機能が必要です。 Needle In A Haystack (NIAH) 評価では、大量のデータから情報を正確に呼び出すモデルの能力を測定します。 Anthropic は、各プロンプトで 30 個のランダムなニードル/質問のペアを使用して、異なるクラウドソースのドキュメント ベースでテストすることにより、このベンチマークの堅牢性を強化しました。 Claude 3 Opus は、ほぼ完璧な再現を実現するだけでなく、99% を超える精度も実現します。そして場合によっては、「針」の文章が原文に人為的に挿入されたように見えることに気づき、評価自体の限界さえ特定した。
#安全で使いやすい アンスロピックは、セキュリティリスクを追跡し軽減するための専門チームを設立したと述べた。同社はまた、モデルのセキュリティと透明性を向上させ、新しいモデルによって生じる可能性のあるプライバシーの懸念を軽減するために、Constitutional AI などの手法の開発も行っています。 Claude 3 モデル シリーズは、以前のモデルと比較して、生物学的知識、ネットワーク関連の知識、自律性の主要な指標において進歩を遂げていますが、調査によると、新しいモデルは最高レベルにあります。 AI Within Security Level 2 (ASL-2) の最前線。 ユーザー エクスペリエンスの点では、Claude 3 は、以前のモデルよりも複雑な複数ステップの指示に従うのが優れており、ブランドと対応のガイドラインをよりよく遵守できるため、より良い結果を得ることができます。信頼できるアプリケーションを開発します。さらに、Anthropic 氏によると、Claude 3 モデルは、JSON などの形式で一般的な構造化出力を生成する能力が向上し、自然言語分類や感情分析などのユースケースで Claude をガイドするのが容易になっています。 技術レポートの内容
レポートアドレス: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf Claude 3 シリーズ モデルの学習データ、評価基準、およびより詳細な実験結果を見ました。 トレーニング データに関しては、Claude 3 シリーズ モデルは、2023 年 8 月の時点でインターネット上で公開されているデータと、サードパーティの非公開データを組み合わせた独自のデータでトレーニングされています。当事者、データラベル付けサービス ベンダーおよび有料請負業者によって提供されるデータ、Claude 内のデータ。 Claude 3 シリーズ モデルは、次のような複数の指標に基づいて広範囲に評価されています。 第一に、推論、プログラミング、質問と評価の結果です。 Claude 3 シリーズ モデルは、推論、読解力、数学、科学、プログラミングに関する一連の業界標準ベンチマークで競合モデルと比較され、その結果、以前のモデルを上回っただけでなく、新しい SOTA を達成したことがわかりました。ほとんどの場合。 。 ロースクール入学試験 (LSAT)、複数州司法試験 (MBE)、2023 年米国数学コンクール数学コンテスト、および大学院成績試験に関する人類学Claude 3 シリーズ モデルは (GRE) 一般試験で評価され、具体的な結果は以下の表 2 に示されています。 Claude 3 シリーズ モデルはマルチモーダル (画像およびビデオ フレーム入力) 機能を備えており、単純なテキストを超えた複雑なマルチモーダル問題の解決に優れています。理解 推論の課題に関しては大幅な進歩が見られました。 典型的な例は、AI2D Scientific Chart Benchmark での Claude 3 モデルのパフォーマンスです。AI2D Scientific Chart Benchmark は、チャートの解析と複数の形式での対応する質問への回答を含む視覚的な質疑応答評価です。選択形式。 Claude 3 Sonnet は 0 ショット設定で SOTA レベルを達成しました - 89.2%、続いて Claude 3 Opus (88.3%)、Claude 3 Haiku (80.6%) が続き、具体的な結果は次のとおりです。以下の表 3。
## この技術レポートに対して、エディンバラ大学博士課程の学生フー・ヤオ氏はすぐに独自の分析を行いました。 。 まず第一に、彼の意見では、評価されたいくつかのモデルは、MMLU / GSM8K / HumanEval などのいくつかの指標において基本的に区別がありません。本当に懸念する必要があるのは、なぜ最良のモデルなのかということです。 1 つは、GSM8K ではモデルにまだ 5% の誤差があることです。 モデルを本当に区別できるのは MATH と GPQA であり、これらの超難問こそが AI モデルが次に目指すべき目標であると彼は信じています。 。 Claude の以前のモデルと比較して改善が見られた分野は、金融と医療です。
視覚の面では、Claude 3 の視覚的な OCR 機能により、データ収集におけるその大きな可能性が人々にわかります。 さらに、彼は他の傾向もいくつか発見しました。
現在の評価ベンチマークと経験から判断すると、Claude 3 はインテリジェンス レベル、マルチモーダル機能、速度の点で大きな進歩を遂げています。 。 改善。新しい一連のモデルのさらなる最適化と適用により、より多様化した大規模モデルのエコシステムが実現する可能性があります。 ブログアドレス: https://www.anthropic.com/news/claude-3-familyどちらが正しいでしょうか?
Claude 3 シリーズ モデル
GPT-4を総合的に上回り、新たなSOTAレベルの知能を実現
現在、Anthropic は 42 ページの技術レポート「The Claude 3 Model Family: Opus」をリリースしています。 、ソネット、俳句」。
以上がGPT-4の時代は終わったのでしょうか?世界中のネチズンがクロード3をテストしショックを受けたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。