국내 오픈소스 MoE 지표 폭발: GPT-4 수준 기능, API 가격은 1%에 불과
최신 국내 오픈소스 MoE 대형 모델은 데뷔하자마자 큰 인기를 끌었습니다.
DeepSeek-V2의 성능은 GPT-4 수준에 도달하지만 오픈 소스이며 상업용으로 무료이며 API 가격은 GPT-4-Turbo의 1%에 불과합니다.
그래서 공개되자마자 즉시 많은 논의를 불러일으켰습니다.
사진
공개된 성능 지표로 볼 때 DeepSeek V2의 포괄적인 중국어 기능은 많은 오픈 소스 모델을 능가하는 동시에 GPT-4 Turbo 및 Wenkuai 4.0과 같은 폐쇄 소스 모델도 첫 번째입니다. 단계.
종합 영어 능력도 LLaMA3-70B와 동일한 1계급에 속하며, 역시 MoE인 Mixtral 8x22B를 능가합니다.
지식, 수학, 추론, 프로그래밍 등에서도 좋은 성적을 보여줍니다. 그리고 128K 컨텍스트를 지원합니다.
Pictures
이러한 기능은 일반 사용자가 무료로 직접 사용할 수 있습니다. 현재 클로즈베타가 오픈되어, 등록 후 바로 체험하실 수 있습니다.
Pictures
API는 훨씬 더 비쌉니다. 입력은 1위안이고 출력은 백만 토큰당 2위안입니다(32K 컨텍스트). 가격은 GPT-4-Turbo의 1%에 불과하다.
동시에 자체 개발한 MLA(Multi-head Latent Attention) 및 Sparse 구조를 사용하여 모델 아키텍처도 혁신되어 모델 계산 및 추론 메모리의 양을 크게 줄일 수 있습니다.
네티즌들은 한탄했습니다: DeepSeek은 항상 사람들에게 놀라움을 선사합니다!
사진
특정 효과를 가장 먼저 경험해 봤습니다!
실제로 테스트해 보세요
현재 V2 내부 베타 버전에서는 범용 대화 및 코드 도우미를 경험할 수 있습니다.
Pictures
일반 대화에서 대형 모델의 논리, 지식, 생성, 수학 및 기타 능력을 테스트할 수 있습니다.
예를 들어 "The Legend of Zhen Huan"의 스타일을 모방하여 립스틱 심기 카피라이팅을 쓰도록 요청할 수 있습니다.
Pictures
는 양자 얽힘이 무엇인지 대중적인 방식으로 설명할 수도 있습니다.
Pictures
수학적 측면에서 다음과 같은 높은 숫자의 미적분 문제에 답할 수 있습니다.
미적분을 사용하여 자연 로그의 밑수 e의 무한 계열 표현을 증명합니다.
Pictures
또한 일부 언어 논리 함정을 피할 수 있습니다.
Pictures
테스트 결과 DeepSeek-V2의 지식 내용이 2023년으로 업데이트된 것으로 나타났습니다.
Pictures
코드 측면에서 내부 테스트 페이지를 보면 DeepSeek-Coder-33B를 사용하여 질문에 답변하는 것으로 나와 있습니다.
간단한 코드 생성에 있어 여러 실제 테스트에서 오류는 없었습니다.
Pictures
는 주어진 코드를 설명하고 분석할 수도 있습니다.
Pictures
Pictures
그러나 시험에서 오답이 나오는 경우도 있습니다.
다음 논리 질문에서 DeepSeek-V2는 계산 과정에서 양초가 양쪽 끝에서 동시에 켜지고 타버리는 데 걸리는 시간을 양초가 타는 데 걸리는 시간의 1/4로 잘못 계산했습니다. 한쪽 끝에서.
pictures
는 어떤 업그레이드를 제공하나요?
공식 소개에 따르면 DeepSeek-V2의 총 매개변수는 236B이고 활성도는 21B로 대략 70B~110B Dense의 모델 성능에 도달합니다.
Pictures
이전 DeepSeek 67B에 비해 성능은 더욱 강력해지고 훈련 비용은 절감되며, KV 캐시는 93.3% 감소하고 최대 처리량은 5.76배 증가합니다.
공식적으로 이는 DeepSeek-V2가 소비하는 비디오 메모리(KV 캐시)가 동일한 수준의 Dense 모델의 1/5~1/100에 불과하고 토큰당 비용이 크게 절감된다는 의미라고 공식적으로 밝혔습니다.
H800 사양을 위해 특별히 많은 통신 최적화가 수행되었습니다. 실제로 8카드 H800 시스템에 배포되었습니다. 입력 처리량은 초당 100,000개 토큰을 초과하고 출력은 초당 50,000개 토큰을 초과합니다.
Pictures
일부 기본 벤치마크에서 DeepSeek-V2 기본 모델의 성능은 다음과 같습니다.
Pictures
DeepSeek-V2는 혁신적인 아키텍처를 채택합니다.
계산 및 추론 메모리의 양을 크게 줄이기 위해 MLA(Multi-head Latent Attention) 아키텍처를 제안했습니다.
동시에 우리는 계산량을 더욱 줄이기 위해 Sparse 구조를 자체 개발했습니다.
Pictures
일부 사람들은 이러한 업그레이드가 데이터 센터의 대규모 컴퓨팅에 매우 도움이 될 수 있다고 말했습니다.
Pictures
그리고 API 가격 측면에서 DeepSeek-V2는 시중의 모든 스타 모델보다 거의 저렴합니다.
Pictures
팀은 DeepSeek-V2 모델과 논문도 완전한 오픈 소스가 될 것이라고 밝혔습니다. 모델 중량 및 기술 보고서가 제공됩니다.
지금 DeepSeek API 오픈 플랫폼에 로그인하고 등록하면 입력 1천만개/출력 5백만개 토큰을 선물로 받을 수 있습니다. 일반 평가판은 완전 무료입니다.
위 내용은 국내 오픈소스 MoE 지표 폭발: GPT-4 수준 기능, API 가격은 1%에 불과의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

'웨스트월드'에 익숙한 관객들은 이 쇼가 미래 세계의 거대한 하이테크 성인 테마파크를 배경으로 한다는 것을 알고 있습니다. 로봇은 인간과 유사한 행동 능력을 가지고 있으며 보고 듣는 것을 기억하고 핵심 스토리를 반복할 수 있습니다. 매일 이 로봇은 재설정되어 초기 상태로 돌아갑니다. 스탠포드 논문 "생성 에이전트: 인간 행동의 대화형 시뮬레이션"이 발표된 후 이 시나리오는 더 이상 영화와 TV 시리즈에만 국한되지 않습니다. 스몰빌의 "가상 타운" 장면 》개요 지도 용지 주소: https://arxiv.org/pdf/2304.03442v1.pdf

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

최신 AIGC 오픈소스 프로젝트인 AnimagineXL3.1을 소개하겠습니다. 이 프로젝트는 사용자에게 더욱 최적화되고 강력한 애니메이션 이미지 생성 경험을 제공하는 것을 목표로 하는 애니메이션 테마의 텍스트-이미지 모델의 최신 버전입니다. AnimagineXL3.1에서 개발 팀은 모델이 성능과 기능 면에서 새로운 수준에 도달할 수 있도록 여러 주요 측면을 최적화하는 데 중점을 두었습니다. 첫째, 이전 버전의 게임 캐릭터 데이터뿐만 아니라 다른 많은 유명 애니메이션 시리즈의 데이터도 훈련 세트에 포함하도록 훈련 데이터를 확장했습니다. 이러한 움직임은 모델의 지식 기반을 풍부하게 하여 다양한 애니메이션 스타일과 캐릭터를 더 완벽하게 이해할 수 있게 해줍니다. AnimagineXL3.1은 새로운 특수 태그 및 미학 세트를 소개합니다.

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나
