작년에 DeepSeek LLM은 인상적인 670 억 파라미터로 파도를 만들었으며, 영어 및 중국의 이해력에서 2 조 2 조의 토큰의 광대 한 데이터 세트에 대해 세 심하게 훈련되었습니다. 연구 협업을위한 새로운 벤치 마크를 설정하면서 DeepSeek는 7B/67B 기반 및 채팅 모델을 모두 오픈 소싱하여 AI 커뮤니티를 강화했습니다. 이제 6,850 억 개의 매개 변수가있는 AI가 있고 AI 공간의 거의 모든 모델을 능가하고 오픈 소스라는 것을 말하면 어떻게해야합니까? 흥미로운 소리? Deepseek은 Deepseek의 중국 실험실에서 개발 한 Deepseek V3 의 출시로 거대한 도약을 펼쳤습니다. 각 토큰에 대해 37B가 활성화 된 671B 총 매개 변수를 갖춘 강력한 혼합 experts (MOE) 언어 모델입니다.
여기서 인상적인 부분은 - 단 $ 55m에 대한 훈련으로 놀라운 비용 효율성을 달성했다는 것입니다 !!!
허용 라이센스로 출시 된 DeepSeek V3는 개발자가 모델을 상용 응용 프로그램을 포함한 다양한 응용 프로그램에 다운로드, 수정 및 통합 할 수 있도록합니다. 다목적 성은 설명 프롬프트에서 에세이 또는 이메일을 코딩, 번역 및 생성하는 것과 같은 다양한 텍스트 기반 작업에 걸쳐있어 개발자와 비즈니스 모두를위한 강력한 도구가됩니다.
또한 DeepSeek V3는 여러 주요 도메인에서 공개적으로 사용 가능한 AI 모델과 폐쇄 된 AI 모델을 능가합니다 . Codeforces에 대한 경쟁 프로그래밍에서 DeepSeek V3는 Meta의 LLAMA 3.1 405B , OpenAi의 GPT-4O 및 Alibaba의 Qwen 2.5 72B를 포함한 라이벌을 능가합니다. 이 모델은 또한 Aider Polyglot Testing (리더 보드의 2 위)에서 탁월하여 기존 프로젝트와 완벽하게 통합되는 새로운 코드를 생성 할 수있는 타의 추종을 불허하는 기능을 보여줍니다.
아직 가장 큰 도약 :
685 억 개의 매개 변수 (671b의 주요 모델 가중치와 MTP (Multi-Token Prediction) 모듈 가중치의 14b)를 통해 Deepseek V3는 2017 년에 얼마나 많은 맥주를 gge 었는지 기억할 수 있습니까? 인상적인 권리? 또한 제작자에 따라 DeepSeek V3를 훈련시키기 위해 550 만 달러를 소비했으며 OpenAI와 OpenAI의 CEO를 비교하면 GPT-4의 교육 비용은 1 억 달러가 넘는 것으로 나타났습니다.이 대비는 DeepSeek V3의 놀라운 비용 효율성을 강조하여 expence에서 삭제 성능을 달성하여 ai gney changer를 만들었습니다.
또한 DeepSeek-V3은 30.8m GPU 시간을 사용하는 LLAMA 3 405B와 비교하여 2.8m GPU 시간 (~ 11 배 덜 컴퓨팅)에서 더 강력한 모델로 보입니다.
DeepSeek (중국어 AI CO)는 오늘 예산 농담 (2048 GPU, 2 개월, 6 백만 달러)에 대한 훈련을받은 프론티어 급 LLM의 오픈 웨이트 릴리스로 쉬운 것처럼 보이게합니다.
- Andrej Karpathy (@karpathy) 2024 년 12 월 26 일
참고 로이 수준의 기능은 16K GPU에 가까운 클러스터를 요구해야합니다. https://t.co/ew7q2pq94b
DeepSeek V3는 AI 아키텍처 및 훈련 효율의 기념비적 인 도약을 나타내며, 대규모 언어 모델의 경계를 높입니다. 이 오픈 소스 모델은 최첨단 성능을 제공 할뿐만 아니라 놀라운 효율성과 확장 성을 제공합니다. 다음은 DeepSeek V3를 눈에 띄는 혁신으로 만드는 이유는 다음과 같습니다.
DeepSeek V3는 전임자 인 Deepseek V2의 입증 된 프레임 워크를 구축하여 MLA (Multi-Head Senent Treate) 및 최첨단 Deepseekmoe 아키텍처를 채택합니다. 이러한 혁신은 효율적인 추론과 비용 효율적인 교육을 보장합니다. 또한 DeepSeek V3는 보조 손실이없는 하중 밸런싱 전략을 사용하여로드 균형 메커니즘과 관련된 일반적인 성능 트레이드 오프를 제거합니다.
이 모델은 또한 MTP (Multi-Token Prediction) 목표를 통합하여 여러 토큰을 동시에 예측하는 능력을 향상시킵니다. 이는 성능을 향상시킬뿐만 아니라 추론 디코딩을 가능하게하여 추론 속도를 상당히 가속화 할 수 있습니다.
DeepSeek V3 는 14.8 조의 다양한 고품질 토큰의 광대 한 데이터 세트에서 미리 훈련됩니다 (더 잘 이해하기 위해 백만 개의 토큰은 약 750,000 단어입니다). 이 사전 훈련은 혁신적인 FP8 혼합 정밀 훈련 프레임 워크를 사용하여 달성되며, 초대형 모델에서 FP8의 첫 번째 성공적인 적용을 표시합니다. 결과에는 다음이 포함됩니다.
DeepSeek V3는 혁신적인 지식 증류 파이프 라인을 통합하여 DeepSeek R1 시리즈 모델에서 추론 기능을 활용합니다. 이 파이프 라인은 고급 검증 및 반사 패턴을 모델에 통합하여 추론 성능을 극적으로 향상시킵니다. 또한, 출력 스타일과 길이는 세 심하게 제어되어 작업에 대한 다양성과 일관성을 보장합니다.
광범위한 평가에 따르면 DeepSeek V3은 모든 오픈 소스 모델과 경쟁 업체를 뛰어 넘는 폐쇄 소스 AI 시스템을 능가합니다. 대규모 규모와 복잡성에도 불구하고, 훈련 과정은 전체주기에 걸쳐 방해 할 수없는 손실 스파이크 또는 롤백이없는 예외적으로 안정적이었습니다.
DeepSeek V3는 혁신과 협업의 힘에 대한 증거로, 개발자와 연구원에게 AI와 그 이후의 광범위한 과제를 해결할 수있는 강력하고 확장 가능하며 비용 효율적인 도구를 제공합니다. 오픈 소스 특성은 접근성을 보장하여 코딩, 추론 및 다중 모달 응용 프로그램의 획기적인 길을 열어줍니다.
다운로드 할 링크는 다음과 같습니다.
모델 | 총 매개 변수 | 컨텍스트 길이 | 다운로드 |
Deepseek-V3-Base | 671B | 128K | 포옹 페이스 |
Deepseek-V3 | 671B | 128K | 포옹 페이스 |
이 평가는 복잡한 추론, 고급 수학 및 경쟁 프로그래밍 작업을 처리하는 데있어 DeepSeek-V3의 우수한 기능을 강조합니다.
또한 개방형 세대 평가가 있습니다.
모델 | 경기장-하드 | Alpacaeval 2.0 |
Deepseek-V2.5-0905 | 76.2 | 50.5 |
qwen2.5-72b 강조 | 81.2 | 49.1 |
llama-3.1 405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
Deepseek-V3 | 85.5 | 70.0 |
평가를 더 잘 이해하기 위해 이것을 참조 할 수도 있습니다.
Deepseek V3 Github에 링크
Aider Polyglot 벤치 마크 결과는 다음과 같습니다.이 결과는 작업을 올바르게 완료하는 능력에 대한 모델을 평가합니다. 평가는 두 가지 출력 형식으로 나뉩니다.
이는 궁극적으로 벤치 마크 작업을 완료 할 때 다양한 AI 시스템의 다양성과 전문 강점을 반영합니다.
채팅 UI를 사용하지 않고 모델과 직접 작업하려면 대안이 있습니다. 이 모델 인 DeepSeek-V3에는 포옹 얼굴에 모든 무게가 방출됩니다. SAFETENSOR 파일에 액세스 할 수 있습니다.
모델 크기 및 하드웨어 요구 사항 :
첫째,이 모델은 6,710 억 개의 매개 변수로 대규모이므로 표준 소비자 등급 하드웨어에서 실행하기가 어렵습니다. 하드웨어가 충분히 강력하지 않으면 DeepSeek 플랫폼을 사용하여 직접 액세스하는 것이 좋습니다. 포옹하는 얼굴 공간을 기다리십시오.
충분한 하드웨어가있는 경우 DeepSeek-Infer 데모, SGLANG, LMDEPLOY, TENSORRT-LLM, VLLM, AMD GPU, Huawei Ascend NPU를 사용하여 모델을 로컬로 실행할 수 있습니다.
메모리 요구 사항을 줄이기 위해 모델을 양자화 된 버전 으로 변환하는데, 이는 특히 저가형 시스템에 유용합니다.
FP8 가중치를 BF16으로 변환하는 방법은 다음과 같습니다.
BF16이 필요한 경우 변환 스크립트
CD 추론 Python fp8_cast_bf16.py-입력 -FP8-HF-Path/Path/to/fp8_weights-output-bf16-Hf-Path/Path/to/BF16_weights
Hugging Face의 Transformers 라이브러리는 아직 모델을 직접 지원하지 않습니다. 설정하려면 다음을 수행해야합니다.
Deepseek ai github 저장소를 복제하십시오.
git 클론 https://github.com/deepseek-ai/deepseek-v3.git
필요한 종속성 설치 :
CD Deepseek-V3/추론 PIP 설치 -R 요구 사항 .txt
포옹 페이스 체크 포인트를 다운로드하고 모델을 로컬로 실행하십시오.
이것을 참조하십시오 : Deepseek v3
추천:
LLM-DeepSeek 플러그인을 사용하여 모델에 액세스 할 수 있습니다.
# 1 단계 : LLM 패키지를 설치하십시오 ! PIP 설치 LLM # 2 단계 : DeepSeek 플러그인을 설치하십시오 LLM 설치 llm-deepseek # 3 단계 : DeepSeek API 키를 설정하십시오 ! LLM 키를 Set DeepSeek # 메시지가 표시되면 API 키를 붙여 넣습니다 # 4 단계 : DeepSeek 채팅 모델을 실행하십시오 ! llm -m deepseek -chat '애완 동물 ocelot에 대한 5 가지 훌륭한 이름' # 5 단계 : DeepSeek 코더 모델을 실행하십시오 ! llm -m Deepseek -Coder 'Python에서 링크 된 목록을 뒤집는 방법'
DeepSeek 플랫폼에서는 웹을 탐색하고 OpenAI의 접근 방식과 유사한 복잡한 문제를 해결하기 위해 깊은 추론에 참여할 수 있습니다.
다음은 몇 가지 프롬프트 및 출력입니다.
프롬프트 : 아이와 축구의 SVG 생성
다음은 축구와 함께 노는 아이의 간단한 SVG 표현입니다. 당신은 할 수 있습니다
이 코드를 복사하여 HTML 파일 또는 SVG 뷰어에 붙여 넣으려면
영상:
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 200 200" width="200"> <circle cx="100" cy="70" r="20" fill="#ffcc99"></circle> <rect x="90" y="90"></rect> <line x1="80" y1="100" x2="60" y2="110" stroke="#4caf50" stroke-width="5"></line> <line x1="120" y1="100" x2="140" y2="110" stroke="#4caf50" stroke-width="5"></line> <line x1="95" y1="130" x2="85" y2="160" stroke="#4caf50" stroke-width="5"></line> <line x1="105" y1="130" x2="115" y2="160" stroke="#4caf50" stroke-width="5"></line> <ellipse cx="140" cy="140" rx="10" ry="5" fill="#8b4513"></ellipse> <line x1="135" y1="140" x2="145" y2="140" stroke="#ffffff" stroke-width="2"></line> <line x1="140" y1="137" x2="140" y2="143" stroke="#ffffff" stroke-width="2"></line> </svg> 설명: 아이는 단순한 모양으로 표현됩니다 : 머리를위한 원, 사각형 몸과 팔과 다리의 선을 위해. 축구는 고전적인 축구를 모방하기 위해 두 개의 흰색 선이있는 타원입니다. 설계. 색상, 크기 및 위치를 조정하여 이미지를 사용자 정의 할 수 있습니다. 더 나아가. 이를 향상 시키거나 수정하고 싶다면 알려주세요!
프롬프트 : 클래식 뱀 게임을 만듭니다
클래식 뱀 게임 만들기 HTML, CSS 및 JavaScript 사용
. 아래는 간단한 구현입니다.
<meta charset="utf-8"> <meta name="viewport" content="width = device-width, 초기 스케일 = 1.0"> <title> 뱀 게임 </title> 몸 { 디스플레이 : Flex; 정당화 컨텐츠 : 센터; 정렬 구조 : 센터; 높이 : 100VH; 여백 : 0; 배경색 : #000; } 캔버스 { 테두리 : 1px 고체 #fff; } 스타일> <canvas width="400"> </canvas> <script src="snake.js"> </script>
위 내용은 Deepseek V3 : 685B 모델은 GPT-4O 및 LLAMA 3.1을 이깁니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!