国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%

PHPz
リリース: 2024-05-07 17:34:01
転載
608 人が閲覧しました

最新の国内オープンソースMoE大型モデルは、デビュー直後から人気を集めています。

DeepSeek-V2 のパフォーマンスは GPT-4 レベルに達しますが、オープンソースで商用利用は無料で、API 価格は GPT-4-Turbo のわずか 1% です。

そのため、リリースされるとすぐに、すぐに多くの議論を引き起こしました。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

公開されたパフォーマンス指標から判断すると、DeepSeek V2 の包括的な中国語機能は多くのオープンソース モデルを上回っています。同時に、GPT-4 Turbo や Wenkuai 4.0 などのクローズド ソース モデルも最初に含まれています。階層。

総合的な英語力もLLaMA3-70Bと同じ第一段階にあり、同じくMoEであるMixtral 8x22Bを上回っています。

知識、数学、推論、プログラミングなどでも優れたパフォーマンスを発揮します。 128K コンテキストをサポートします。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

これらの機能は、一般ユーザーが無料で直接使用できます。クローズドベータ版が公開されており、登録後すぐに体験することができます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Pictures

API はさらに高価です。入力は 1 元、出力は 100 万トークン (32K コンテキスト) あたり 2 元です。価格は GPT-4-Turbo のわずか 1% 近くです。

同時に、モデル アーキテクチャも革新され、自社開発の MLA (マルチヘッド潜在注意) とスパース構造を使用して、モデルの計算と推論メモリの量を大幅に削減できます。

ネチズンは嘆きました: DeepSeek は常に人々に驚きをもたらします!

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

具体的な効果をいち早く体験してきました!

実際にテストしてみよう

現在、V2 内部ベータ版ではユニバーサル ダイアログとコード アシスタントを体験できます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

一般的な会話で、大きなモデルの論理、知識、生成、数学、その他の能力をテストできます。

たとえば、「ジェン・フアンの伝説」のスタイルを模倣して口紅を植えるコピーライティングを書くように依頼できます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

は、量子もつれとは何かを一般的な方法で説明することもできます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

数学に関しては、次のような高度な微積分の質問に答えることができます。

微積分を使用して、自然対数の底 e の無限級数表現を証明します。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Picture

は、いくつかの言語論理の罠を回避することもできます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

テストにより、DeepSeek-V2 の知識コンテンツが 2023 に更新されたことがわかります。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

コードに関しては、内部テスト ページでは、質問に答えるために DeepSeek-Coder-33B が使用されていることが示されています。

より単純なコードを生成する際、いくつかの実際のテストではエラーは発生しませんでした。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

は、指定されたコードを説明および分析することもできます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Pictures

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Pictures

しかし、テストでは誤答するケースもあります。

次の論理質問では、計算プロセス中に、DeepSeek-V2 が、ろうそくの両端から同時に点火して燃え尽きるまでにかかる時間を、ろうそくが燃えるまでにかかる時間の 4 分の 1 として誤って計算しました。片端から出ます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

はどのようなアップグレードをもたらしますか?

公式の紹介によると、DeepSeek-V2 の合計パラメータは 236B、アクティベーションは 21B で、これはおおよそ 70B ~ 110B Dense のモデル能力に達します。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

以前の DeepSeek 67B と比較して、パフォーマンスが向上し、トレーニング コストが 42.5% 節約され、KV キャッシュが 93.3% 削減され、最大スループットが 5.76 倍に増加します。

これは、DeepSeek-V2が消費するビデオメモリ(KVキャッシュ)が同レベルのDenseモデルの1/5~1/100に過ぎず、トークン当たりのコストが大幅に削減されることを意味すると公式に述べられています。

H800 仕様に合わせて多くの通信が最適化されており、実際には 8 カードの H800 マシンにデプロイされており、入力スループットは 1 秒あたり 100,000 トークンを超え、出力は 1 秒あたり 50,000 トークンを超えています。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Pictures

いくつかの基本的なベンチマークでは、DeepSeek-V2 基本モデルのパフォーマンスは次のとおりです:

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%Pictures

DeepSeek-V2 は革新的なアーキテクチャを採用しています。

計算メモリと推論メモリの量を大幅に削減するための MLA (マルチヘッド潜在注意) アーキテクチャを提案しました。

同時に、計算​​量をさらに削減するためにSparse構造を独自に開発しました。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

これらのアップグレードはデータセンターの大規模コンピューティングに非常に役立つ可能性があると言う人もいます。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

そして、API 価格の観点から見ると、DeepSeek-V2 は市場のすべてのスター モデルよりもほぼ低価格です。

国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%写真

チームは、DeepSeek-V2 モデルと論文も完全にオープンソースになると述べました。モデルの重量と技術レポートが提供されます。

今すぐ DeepSeek API オープン プラットフォームにログインし、登録して 1,000 万入力/500 万出力トークンをギフトとして受け取りましょう。通常お試しは完全無料です。

以上が国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート