最新の国内オープンソースMoE大型モデルは、デビュー直後から人気を集めています。
DeepSeek-V2 のパフォーマンスは GPT-4 レベルに達しますが、オープンソースで商用利用は無料で、API 価格は GPT-4-Turbo のわずか 1% です。
そのため、リリースされるとすぐに、すぐに多くの議論を引き起こしました。
写真
公開されたパフォーマンス指標から判断すると、DeepSeek V2 の包括的な中国語機能は多くのオープンソース モデルを上回っています。同時に、GPT-4 Turbo や Wenkuai 4.0 などのクローズド ソース モデルも最初に含まれています。階層。
総合的な英語力もLLaMA3-70Bと同じ第一段階にあり、同じくMoEであるMixtral 8x22Bを上回っています。
知識、数学、推論、プログラミングなどでも優れたパフォーマンスを発揮します。 128K コンテキストをサポートします。
写真
これらの機能は、一般ユーザーが無料で直接使用できます。クローズドベータ版が公開されており、登録後すぐに体験することができます。
Pictures
API はさらに高価です。入力は 1 元、出力は 100 万トークン (32K コンテキスト) あたり 2 元です。価格は GPT-4-Turbo のわずか 1% 近くです。
同時に、モデル アーキテクチャも革新され、自社開発の MLA (マルチヘッド潜在注意) とスパース構造を使用して、モデルの計算と推論メモリの量を大幅に削減できます。
ネチズンは嘆きました: DeepSeek は常に人々に驚きをもたらします!
写真
具体的な効果をいち早く体験してきました!
現在、V2 内部ベータ版ではユニバーサル ダイアログとコード アシスタントを体験できます。
写真
一般的な会話で、大きなモデルの論理、知識、生成、数学、その他の能力をテストできます。
たとえば、「ジェン・フアンの伝説」のスタイルを模倣して口紅を植えるコピーライティングを書くように依頼できます。
写真
は、量子もつれとは何かを一般的な方法で説明することもできます。
写真
数学に関しては、次のような高度な微積分の質問に答えることができます。
微積分を使用して、自然対数の底 e の無限級数表現を証明します。
Picture
は、いくつかの言語論理の罠を回避することもできます。
写真
テストにより、DeepSeek-V2 の知識コンテンツが 2023 に更新されたことがわかります。
写真
コードに関しては、内部テスト ページでは、質問に答えるために DeepSeek-Coder-33B が使用されていることが示されています。
より単純なコードを生成する際、いくつかの実際のテストではエラーは発生しませんでした。
写真
は、指定されたコードを説明および分析することもできます。
Pictures
Pictures
しかし、テストでは誤答するケースもあります。
次の論理質問では、計算プロセス中に、DeepSeek-V2 が、ろうそくの両端から同時に点火して燃え尽きるまでにかかる時間を、ろうそくが燃えるまでにかかる時間の 4 分の 1 として誤って計算しました。片端から出ます。
写真
公式の紹介によると、DeepSeek-V2 の合計パラメータは 236B、アクティベーションは 21B で、これはおおよそ 70B ~ 110B Dense のモデル能力に達します。
写真
以前の DeepSeek 67B と比較して、パフォーマンスが向上し、トレーニング コストが 42.5% 節約され、KV キャッシュが 93.3% 削減され、最大スループットが 5.76 倍に増加します。
これは、DeepSeek-V2が消費するビデオメモリ(KVキャッシュ)が同レベルのDenseモデルの1/5~1/100に過ぎず、トークン当たりのコストが大幅に削減されることを意味すると公式に述べられています。
H800 仕様に合わせて多くの通信が最適化されており、実際には 8 カードの H800 マシンにデプロイされており、入力スループットは 1 秒あたり 100,000 トークンを超え、出力は 1 秒あたり 50,000 トークンを超えています。
Pictures
いくつかの基本的なベンチマークでは、DeepSeek-V2 基本モデルのパフォーマンスは次のとおりです:
Pictures
DeepSeek-V2 は革新的なアーキテクチャを採用しています。
計算メモリと推論メモリの量を大幅に削減するための MLA (マルチヘッド潜在注意) アーキテクチャを提案しました。
同時に、計算量をさらに削減するためにSparse構造を独自に開発しました。
写真
これらのアップグレードはデータセンターの大規模コンピューティングに非常に役立つ可能性があると言う人もいます。
写真
そして、API 価格の観点から見ると、DeepSeek-V2 は市場のすべてのスター モデルよりもほぼ低価格です。
写真
チームは、DeepSeek-V2 モデルと論文も完全にオープンソースになると述べました。モデルの重量と技術レポートが提供されます。
今すぐ DeepSeek API オープン プラットフォームにログインし、登録して 1,000 万入力/500 万出力トークンをギフトとして受け取りましょう。通常お試しは完全無料です。
以上が国内のオープンソース MoE 指標が爆発的に増加: GPT-4 レベルの機能、API 価格はわずか 1%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。