首頁 > 科技週邊 > 人工智慧 > DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

尊渡假赌尊渡假赌尊渡假赌
發布: 2025-03-13 10:36:11
原創
740 人瀏覽過

去年, DeepSeek LLM的670億參數引起了浪潮,並在2萬億個代幣的廣泛數據集中精心培訓,英語和中文的理解力。為研究合作設定新的基準測試,DeepSeek通過開放式7B/67B基礎和聊天模型來奠定AI社區。現在,如果我告訴您有一個具有6850億個參數的AI,並且它的表現幾乎超過了AI空間中的每個模型,並且是開源的?聽起來很有趣吧? DeepSeek隨著中國實驗室在DeepSeek開發的DeepSeek V3的釋放,取得了巨大的飛躍,從而進一步推動了AI創新的界限。它是一個強大的專家(MOE)語言模型,其總參數為671B,每個令牌都激活了37B。

這裡令人印象深刻的部分是 - 它的培訓僅需550萬美元就達到了出色的成本效率!!!

DeepSeek V3根據寬鬆許可發布,使開發人員下載,修改和集成模型納入包括商業應用程序在內的不同應用程序。它的多功能性涵蓋了一系列基於文本的任務,例如編碼,翻譯和生成描述性提示的文章或電子郵件,使其成為開發人員和企業的強大工具。

此外, DeepSeek V3在幾個關鍵域中公開可用和封閉的AI型號均優於公開性的AI模型。在CodeForces的競爭性編程中,DeepSeek V3超出了競爭對手,包括Meta的Llama 3.1 405B ,OpenAI的GPT-4O和阿里巴巴的QWEN 2.5 72B。該模型還可以在AIDER Polyglot測試(排行榜上的第二位)中出色,展示了生成與現有項目無縫集成的新代碼的無與倫比的能力。

迄今為止最大的飛躍:

  • 60令牌/秒(比V2快3倍!)
  • 增強功能
  • API兼容性完整
  • 完全開源的模型和論文

目錄

  • DeepSeek V3:龐大的開源,6850億個參數
  • 什麼是DeepSeek V3?
    • 1。高級體系結構:多頭潛在註意力和負載平衡
    • 2。以前所未有的規模和效率進行預訓練
    • 3。訓練後增強:推理精通的知識蒸餾
    • 4。無與倫比的性能和穩定性
  • 在不同基准上對DeepSeek V3的評估
    • 評估的基準
    • DeepSeek-V3的整體表現
  • AIDER POLYLOT基準結果
    • 關鍵觀察
  • DeepSeek V3的聊天網站和API平台
  • 如何運行DeepSeek V3?
    • 如何在本地運行?
    • 通過DeepSeek-Inster Demo設置過程
    • LLM DeepSeek插件
  • DeepSeek V3實驗
    • 第一個實驗
    • 第二實驗
    • 第三實驗
  • 結論

DeepSeek V3:龐大的開源,6850億個參數

您是否知道,有6850億個參數(主型號的671B和多token預測(MTP)模塊權重的14b), DeepSeek V3可以記得您在2017年挑起多少啤酒嗎?令人印象深刻吧? Also, as per the creators they have spent $5.5 million to train DeepSeek V3 and if we compare this with OpenAI – OpenAI's CEO, Sam Altman, mentioned that the training cost for GPT-4 was over $100 million .This stark contrast highlights DeepSeek V3's remarkable cost efficiency, achieving cutting-edge performance at a fraction of the expense, making it a game-changer in the AI landscape.

同樣,與使用30.8m gpu小時的Llama 3 405B相比,DeepSeek-V3在280萬GPU小時(降低11倍的計算)時似乎是一個更強大的模型。

DeepSeek(中國人工智能公司)今天看起來很容易,開放的權重發行了經過預算的笑話的邊境級LLM(2048 GPU,持續2個月,600萬美元)。

作為參考,這種能力級別應該需要更接近16k GPU的簇,其中的簇是……https://t.co/ew7q2pq94b

- Andrej Karpathy(@karpathy)2024年12月26日

什麼是DeepSeek V3?

DeepSeek V3代表了AI體系結構和訓練效率的巨大飛躍,從而突破了大規模語言模型的界限。這種開源模型不僅可以提供最先進的性能,而且具有出色的效率和可擴展性。這就是使DeepSeek V3成為傑出創新的原因:

1。高級體系結構:多頭潛在註意力和負載平衡

DeepSeek V3建立在其前身DeepSeek V2的驗證框架的基礎上,採用了多頭潛在註意力(MLA)和尖端的DeepSeekmoe架構。這些創新確保有效的推斷和具有成本效益的培訓。此外,DeepSeek V3採用了無輔助負荷平衡策略,消除了與負載平衡機制相關的典型性能權衡。

該模型還集成了一個多型預測(MTP)目標,從而增強了其同時預測多個令牌的能力。這不僅可以提高性能,還可以實現投機性解碼,從而顯著加速推理速度。

2。以前所未有的規模和效率進行預訓練

DeepSeek V3已在14.8萬億個高質量令牌的廣泛數據集中進行了預先訓練(為了更好地理解它,100萬個令牌約為750,000個單詞),該量表遠超過了其前輩。使用革命性的FP8混合精度訓練框架來實現此預訓練,這標誌著FP8在超大規模模型中的首次成功應用。結果包括:

  • 無縫的GPU利用率:通過算法,框架和硬件的共同設計,DeepSeek V3在跨節點MOE培訓中克服了通信瓶頸,從而實現了幾乎完整的計算通信重疊。
  • 具有成本效益的培訓:DeepSeek V3僅2.664億H800 GPU小時,是最強的開源基本型號,為效率設定了新的標準。預先訓練後階段僅需要額外的0.10萬個GPU小時,這使得該過程非常經濟。

3。訓練後增強:推理精通的知識蒸餾

DeepSeek V3集成了創新的知識蒸餾管線,從而利用了DeepSeek R1系列模型的推理功能。該管道將​​高級驗證和反射模式納入模型,從而顯著提高了其推理性能。此外,對輸出樣式和長度進行了精心控制,以確保任務之間的多功能性和一致性。

4。無與倫比的性能和穩定性

廣泛的評估證實,DeepSeek V3的表現優於所有開源模型和競爭對手領導的封閉式AI系統。儘管規模較大和復雜性,但訓練過程非常穩定,在整個週期中沒有無法抵消的損失尖峰或回滾。

DeepSeek V3證明了創新和協作的力量,為開發人員和研究人員提供了一種強大,可擴展和成本效益的工具,以應對AI及其他地區的廣泛挑戰。其開源性質可確保可訪問性,為編碼,推理和多模式應用程序的突破鋪平道路。

這是下載的鏈接:

模型 總參數 上下文長度 下載
DeepSeek-v3 bas 671b 128K 擁抱面
DeepSeek-V3 671b 128K 擁抱面

在不同基准上對DeepSeek V3的評估

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

評估的基準

  • MMLU-PRO(精確匹配 - EM):衡量事實和多任務質量檢查精度。
  • GPQA-Diamond(通過@1):評估精確的QA性能,重點放在更困難的任務上。
  • 數學500(EM):測試數學推理和解決問題。
  • AIME 2024(通過@1):專注於高級數學競賽問題。
  • CodeForces(百分比):衡量編碼競爭技能。
  • 經過驗證(已解決)的SWE基礎:測試軟件工程任務解決的精度。

關鍵觀察

  1. mmlu-pro
    • DeepSeek-V3的準確性為75.9% ,超過了其最接近的競爭對手,例如GPT-4-0513(73.3%)Claude-3.5(72.6%)
    • 這顯示了其在多任務事實質量檢查中的實力。
  2. GPQA-Diamond
    • 同樣,DeepSeek-V3的得分最高,達到59.1% ,表現優於其他其他人,例如Claude-3.5( 49.9% )和Qwen2.5( 51.1% )。
    • 在高缺陷的質量檢查任務上表現出強度的精度。
  3. 數學500
    • 90.2%的精度為主,遠遠超過Claude-3.5( 80.0% )和GPT-4-0513( 78.3% )。
    • 指示出色的數學推理。
  4. Aime 2024
    • 得分為39.2% ,比GPT-4-0513( 23.3% )和Claude-3.5( 16.0% )高得多。
    • 突出了其解決高級競爭級數學問題的能力。
  5. CodeForces
    • 達到51.6% ,表現優於GPT-4-0513( 35.6% )和其他模型。
    • 反映強大的編碼競爭能力。
  6. SWE板凳經過驗證
    • 與GPT-4-0513( 50.8% )競爭42.0% ,優於Claude-3.5( 38.8% )。
    • 顯示軟件工程問題解決問題的能力。

DeepSeek-V3的整體表現

  • 一致性和優勢: DeepSeek-V3在所有主要基準測試中始終勝過所有主要基準,除了經過驗證的SWE-Bench ,GPT-4邊緣略有效力。
  • 優勢:其最強的領域是數學解決問題(數學500)多任務質量QA(MMLU-PRO)
  • 優先於先前的版本:對DeepSeek-V2.5的顯著改善是顯而易見的,尤其是在AIME 2024(39.2%vs. 23.3%)CodeForces(51.6%vs. 35.6%)中,顯示出增強的推理和競爭性編程技能。

該評估強調了DeepSeek-V3在處理複雜推理,高級數學和競爭性編程任務方面的卓越功能。

這也是開放式一代評估:

模型 競技場 羊駝毛2.0
DeepSeek-V2.5-0905 76.2 50.5
QWEN2.5-72B-INSTRUCT 81.2 49.1
Llama-3.1 405b 69.3 40.5
GPT-4O-0513 80.4 51.1
Claude-Sonnet-3.5-1022 85.2 52.0
DeepSeek-V3 85.5 70.0
  1. 競技場 - 頑強的表演
    • DeepSeek-V3以85.5排名最高,超過Claude-Sonnet-3.5(85.2),並且表現明顯優於DeepSeek-V2.5(76.2)。
    • 這表明了其在困難的情況下產生全面的,上下文感知的響應的出色能力。
  2. Alpacaeval 2.0性能
    • DeepSeek-V3以70.0領先,遠遠領先於Claude-Sonnet-3.5(52.0),第二好的表演者。
    • 這表明用戶偏好和開放式輸出的總體質量有顯著改善,從而顯示出與用戶期望更好的一致性。
  3. 與競爭對手的比較
    • Qwen2.5(競技場 - 赫德:81.2,alpacaeval:49.1):
      • 在競技場上表現良好,但在用戶偏好方面顯著落後,表明與用戶友好的響應樣式保持較弱。
    • GPT-4-0513(Arena-Hard:80.4,Alpacaeval:51.1):
      • 在這兩個指標上都有競爭力,但與DeepSeek-V3的用戶質量不符。
    • Llama-3.1(Arena-Hard:69.3,Alpacaeval:40.5):
      • 兩種基準測試的得分都較低,突出了較弱的開放式一代能力。
    • DeepSeek-V2.5(競技場 - hard:76.2,alpacaeval:50.5):
      • 從v2.5到v3的飛躍非常重要,表明響應連貫性和用戶偏好一致性方面進行了重大升級。

您也可以參考以更好地了解評估:

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

鏈接到DeepSeek V3 Github

AIDER POLYLOT基準結果

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

以下是AIDER POLYLOT基準結果,該結果評估了模型正確完成任務的能力。評估分為兩種輸出格式:

  • 類似diff的格式(陰影條) :輸出類似於代碼差異或小更新的任務。
  • 整體格式(固體條) :需要生成整個響應的任務。

關鍵觀察

  1. 表現最好的人
    • O1-2024-11-12(Tingli)以近65%的精度領先基準,在整個任務中顯示出非凡的性能。
    • DeepSeek Chat V3 Preview和Claude-3.5 SONNET-2024-1022緊隨其後,分數在40–50%之間,以兩種格式顯示出可靠的任務完成。
  2. 表演者
    • Gemini Exp-12206和Claude-3.5 Haiku-2024-1022在兩種格式中得分適中,突出了平衡但平均表現。
    • DeepSeek Chat v2.5和Flash-2.0位於較低的中端,與領先的模型相比,任務解決能力較弱。
  3. 表現較低
    • Y燈,QWEN2.5-CODER 32B-INSTRUCTION和GPT-4O-MINI 2024-07-18的得分最低,精度低於10–15%。這表明處理類似差異和整個格式任務的顯著局限性。
  4. 格式比較
    • 模型通常在整個格式上的性能要比類似diff的格式稍好一些,這意味著全反應生成要比較小的增量變化更好。
    • 陰影條(類似於差異格式)始終低於其全格式對應物,表明在此特定能力中存在一致的差距。

DeepSeek Chat V3預覽的位置:

  • 排名前三名。
  • 整個格式的評分約為50%,在類似差異格式中得分略低。
  • 這顯示了處理完整任務的強大功能,但為改進類似差異的任務的空間留出了空間。

見解:

  • 基準強調了評估模型的各種優勢和劣勢。
  • 諸如O1-2024-11-12之類的模型均顯示出兩種任務形式的優勢,而諸如DeepSeek Chat V3 Preview等其他模型主要在全任務中出現Excel。
  • 較低的表演者表示需要在細微差別和更廣泛的任務處理能力中進行優化。

這最終反映了不同AI系統完成基準任務的多功能性和專業優勢。

DeepSeek V3的聊天網站和API平台

  1. 您可以通過官方網站與DeepSeek-V3進行互動: DeepSeek聊天

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

  1. 此外,他們在DeepSeek平台上提供了與OpenAi兼容的API鏈接
    它的成本是API,這取決於令牌:

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

如何運行DeepSeek V3?

如果您不想使用CHAT UI並希望直接與該模型一起使用,那麼您還有一個選擇。該模型DeepSeek-V3的所有權重都在擁抱的臉上釋放。您可以在此處訪問SafetEnsor文件。

型號大小和硬件要求:

首先,該模型具有6710億個參數,這使得在標準消費級硬件上運行它具有挑戰性。如果您的硬件不夠強大,建議使用DeepSeek平台直接訪問。如果一個人可用,請等待擁抱的空間。

如何在本地運行?

如果您有足夠的硬件,則可以使用DeepSeek-Inster演示,SGLANG,LMDEPLOY,TENSORRT-LLM,VLLM,VLLM,AMD GPU,HUAWEI ASCEND NPU在本地運行該模型。

將模型轉換為量化版本以減少內存需求,這對低端系統特別有用。

這是您可以將FP8權重轉換為BF16的方法:

轉換腳本如果您需要BF16

 CD推斷
python fp8_cast_bf16.py-輸入fp8-hf-path/path/path/to/fp8_weights-Output-bf16-hf-path/path/path/to/bf16_weights
登入後複製

通過DeepSeek-Inster Demo設置過程

擁抱Face的Transformers庫尚未直接支持該模型。要設置它,您需要:

克隆DeepSeek AI GitHub存儲庫

 git克隆https://github.com/deepseek-ai/deepseek-v3.git
登入後複製

安裝所需的依賴項:

 CD DeepSeek-V3/推斷
pip install -r要求.txt
登入後複製

下載擁抱面部檢查點並在本地運行模型。

請參閱此信息:DeepSeek V3

推薦:

  • 如果您擁有功能強大的硬件,請嘗試在本地運行該模型以充分探索其潛力。
  • 否則,請使用DeepSeek.com Chat UI或其API平台進行無縫訪問。

LLM DeepSeek插件

您還可以使用LLM-Deepseek插件訪問模型:

 #步驟1:安裝LLM軟件包
!PIP安裝LLM
#步驟2:安裝DeepSeek插件
!llm安裝llm-deepseek
#步驟3:設置DeepSeek API密鑰
!llm鍵set deepseek
#提示時粘貼API密鑰
#步驟4:運行DeepSeek聊天模型
!
#步驟5:運行DeepSeek編碼器模型
!
登入後複製

DeepSeek V3實驗

在DeepSeek平台上,您可以探索網絡並進行深入的推理以解決複雜的問題,類似於Openai的方法。

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

以下是一些提示和輸出:

第一個實驗

提示:產生一個孩子和足球的SVG

輸出:

這是一個簡單的SVG代表,表明一個孩子踢足球。你可以
將此代碼複製並粘貼到HTML文件或SVG查看器中以查看
圖像:

 <svg xmlns="“" http: viewbox="“" width="“">



<circle cx="“" cy="“" r="“"></circle>



<rect x="“" y="“" width="“" height="“" fill="“#4CAF50”"></rect>

















<line x1="“" y1="“" x2="“" y2="“" stroke="“#ffffff”" witth="“"></line>



</svg>

解釋:

孩子用簡單的形狀表示:頭部的圓圈,矩形
 適用於身體和胳膊和腿的線。

足球是一個橢圓形的,有兩條白線,可以模仿經典的足球
 設計。

您可以調整顏色,尺寸和位置以自定義圖像
 更遠。

讓我知道您是否想增強或修改它!
登入後複製

DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1

第二實驗

提示:創建經典蛇遊戲

輸出:

創建經典蛇遊戲涉及使用HTML,CSS和JavaScript
。以下是一個簡單的實現:

 





<meta charset="“" utf-8>

<meta name="“" viewport content="“" width="設備寬度,初始尺度=">

<title>蛇遊戲</title>



身體 {

顯示:Flex;

Jusify-content:中心;

準項目:中心;

身高:100VH;

保證金:0;

背景色:#000;

}

帆布 {

邊界:1PX實心#FFF;

}







<canvas width="“" height="“"> </canvas>

<script src="%E2%80%9C" snake.js> </script>

登入後複製

以上是DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板