ラマ 3 が登場します!
たった今、Meta の公式 Web サイトが更新され、Llama 3 の 80 億パラメータと 700 億パラメータのバージョンが正式に発表されました。
そして、このリリースはオープンソース SOTA です:
メタ公式データによると、Llama 3 8B および 70B バージョンは、それぞれのパラメーター スケールですべての対戦相手を上回っています。
8B モデルは、MMLU、GPQA、HumanEval などの多くのベンチマークで Gemma 7B および Mistral 7B Instruct よりも優れたパフォーマンスを示します。
70B モデルは、人気のあるクローズドソースの Claude 3 Sonnet を超え、Google の Gemini Pro 1.5 と行き来しました。
Huggingface リンクが公開されるとすぐに、オープンソース コミュニティは再び興奮しました。
鋭い目の盲目の学生たちもすぐに華甸を発見しました:
メタは、クロード 3 の超大型オーパスに匹敵する 4,000 億個のパラメーターを持つラマ 3 のバージョンさえ隠していました。
AI ライティング アシスタントのスタートアップ HyperWriteAI の CEO は、これを見てため息をつかずにはいられませんでした。新しい世界、GPT - レベル 4 モデルがオープンソースで自由にアクセスできる世界。
NVIDIA の科学者 Jim Fan は、まだトレーニング中の Llama 3 400B がオープンソースの大規模モデルの分水嶺となり、多くの学術モデルの開発を変えるだろうと信じています。研究とスタートアップ企業の方法。
フル SOTA、ただし 8k ウィンドウ
技術的な詳細については、メタをブログ投稿に記載しています。 アーキテクチャ レベルでは、Llama 3 は、128K のトークン語彙を含む単語セグメンタを使用する、古典的なデコーダのみの Transformer アーキテクチャを選択しました。 トレーニング データを見ると、Llama 3 のトレーニング データの規模は 15T トークンに達しており、そのすべては公開情報に由来しており、そのうち 5% は英語以外のデータであり、30 以上の言語をカバーしています。 Llama 3 には、Llama 2 の 7 倍のトレーニング データがあり、Llama 2 の 4 倍のコードがあります。 さらに、Llama 3 モデルの推論効率を向上させるために、Meta AI はグループ クエリ アテンション (GQA) メカニズムを採用して 8192 トークンのシーケンスでモデルをトレーニングし、マスクを使用して注意が文書の境界を越えないように注意してください。その結果、8B バージョンであっても 70B バージョンであっても、Llama 3 は、同様のサイズの前世代の Llama 2 と比較して大きな進歩を遂げました。
これまでの8B、70Bパラメータスケールモデルのうち、Llama 3は新たなSOTAモデルとなりました。 言語 (MMLU)、知識 (GPQA)、プログラミング (HumanEval)、数学 (GSM-8K、MATH) およびその他の機能の点で、Llama 3 は同規模の他のモデルよりもほぼ完全に優れています。これらの従来のデータ セットに加えて、Meta AI は現実のシナリオにおける Llama 3 のパフォーマンスも評価し、この目的のために高品質のテスト データ セットを開発しました。
このテスト セットには、コーディング、推論、記述、要約などの 12 の主要なユースケースをカバーする 1,800 個のデータが含まれており、開発チームに対して機密扱いとなります。 その結果、Llama 3 は Llama 2 を大幅に上回っただけでなく、Claude 3 Sonnet、Mistral Medium、GPT-3.5 などの有名なモデルにも勝利しました。Llama 3 のパフォーマンスは、AGIEval、BIG-Bench、ARC-Challenge などの高次でより困難なデータセットでも顕著です。
8B バージョンはこれらのタスクで Mistral と Gemma を上回り、70B バージョンは MoE アーキテクチャの Gemini Pro と Mixtral を破り、それぞれ対応するサイズの SOTA を獲得しました。
ただし、唯一の欠点は、Llama 3 のコンテキスト ウィンドウが数十、数百万のウィンドウを持つ現在の大型モデルと比較して、わずか 8k であることです。まだ前の世代(手動の犬の頭)に残っています。
しかし、マット シューマー氏はこれについて楽観的であり、オープンソース コミュニティの努力により、その期間はすぐに短縮されるだろうと述べています。拡張されました。
現在、Llama 3 の両方のパラメーターの基本バージョンと指示バージョンは、Hugging Face でダウンロードできます。
さらに、Microsoft Azure、Google Cloud、Amazon AWS、NVIDIA NIM などのクラウド サービス プラットフォームでも、Llama 3 が続々とリリースされる予定です。
同時にメタ氏は、Llama 3はIntel、Nvidia、AMD、Qualcommなどのメーカーが提供するハードウェアプラットフォームでサポートされるだろうとも述べた。
今回は、基本モデルとともに、Meta AI と呼ばれる、Llama 3 に基づく公式 Web バージョンがあることを言及する価値があります。
現在、プラットフォームにはダイアログとペイントの2つの主要な機能がありますが、ダイアログのみを使用する場合は、登録とログインを必要とせずに使用できます。すぐにペイント機能を使用するには、まずアカウントにログインする必要があります。
ただし、プラットフォームは現在中国語をサポートしておらず、テキストのアップロードなどの機能はまだ開始されていません。
コードに関しては、このプラットフォームはいくつかの単純な Python プログラムも実行できますが、テキストの出力のみが可能で、描画を伴うタスクは実行できないようです。
# 全体的に見ると、この Web バージョンはまだ比較的初歩的なものですが、その後の更新の波に期待するのもよいでしょう。
小さな事件は、実際、Meta の公式発表の数時間前に、Microsoft の Azure マーケットが Llama 3 8B Instruct バージョンのニュースをすでに盗んでいたことです。
オープンソース モデルの機械学習オンライン プラットフォーム Replicate にある Llama 3 の価格表も、すぐにネチズンによって削除されました。
#しかしすぐに、これらの「ちょっとした豆知識」はすべて 404 にされてしまいました。
幸いなことに、間違いは終わったので、当局はオープンソースの大規模モデルに関心を持つ友人がそれを遅らせるつもりはありません。
参考リンク:
[1]https://ai.meta.com/blog/meta-llama-3/。
[2]https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/。
[3]https://huggingface.co/メタラマ/メタラマ-3-70B。
以上がLlama3が突然やってくる!オープンソース コミュニティが再び沸騰: GPT4 レベルのモデルに無料でアクセスできる時代が到来の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。