Tahun lepas, Deepseek LLM membuat gelombang dengan 67 bilion parameter yang mengagumkan, dengan teliti dilatih pada dataset luas 2 trilion token dalam pemahaman bahasa Inggeris dan China. Menetapkan penanda aras baru untuk kerjasama penyelidikan, DeepSeek menanam komuniti AI dengan sumber terbuka kedua-dua model asas 7B/67B dan sembangnya. Sekarang, bagaimana jika saya memberitahu anda terdapat AI dengan 685 bilion parameter dan ia mengungguli hampir setiap model di ruang AI dan sumber terbuka? Kedengarannya menarik betul? Deepseek mengambil lonjakan gergasi ke hadapan dengan pembebasan DeepSeek V3 , yang dibangunkan oleh makmal Cina di Deepseek, menolak sempadan inovasi AI lebih jauh lagi. Ia adalah model bahasa campuran yang kuat (MOE) dengan parameter total 671B dengan 37B diaktifkan untuk setiap token.
Bahagian yang mengagumkan di sini adalah - ia telah mencapai kecekapan kos yang luar biasa dengan latihannya hanya $ 5.5m !!!
Dikeluarkan di bawah lesen permisif, DeepSeek V3 memberi kuasa kepada pemaju untuk memuat turun, mengubah suai, dan mengintegrasikan model ke dalam pelbagai aplikasi, termasuk yang komersial. Kepelbagaiannya merangkumi pelbagai tugas berasaskan teks seperti pengekodan, menterjemah, dan menjana esei atau e-mel dari arahan deskriptif, menjadikannya alat yang berkuasa untuk pemaju dan perniagaan.
Juga, DeepSeek V3 mengatasi kedua -dua model AI yang tersedia dan ditutup secara terbuka dalam beberapa domain utama. Dalam pengaturcaraan yang kompetitif pada Codeforces, pesaing DeepSeek V3, termasuk Meta's Llama 3.1 405b , Openai's Gpt-4o , dan Alibaba's Qwen 2.5 72b. Model ini juga cemerlang dalam ujian polyglot Aider (tempat ke -2 di papan pendahulu), menunjukkan keupayaan yang tidak dapat ditandingi untuk menghasilkan kod baru yang mengintegrasikan dengan lancar dengan projek -projek yang sedia ada.
Lonjakan terbesar ke hadapan:
Adakah anda tahu, bahawa dengan 685 bilion parameter (671B berat model utama dan 14B dari berat modul ramalan multi-token (MTP ) . Mengesankan kan? Selain itu, mengikut pencipta, mereka telah membelanjakan $ 5.5 juta untuk melatih Deepseek v3 dan jika kita membandingkannya dengan CEO Openai-Openai, Sam Altman, menyebut bahawa kos latihan untuk GPT-4 adalah lebih dari $ 100 juta .
Juga, DeepSeek-V3 kelihatan menjadi model yang lebih kuat pada hanya 2.8m GPU-jam (~ 11x kurang mengira) berbanding dengan Llama 3 405B yang menggunakan 30.8m GPU-jam.
DeepSeek (Cina AI Co) menjadikannya kelihatan mudah hari ini dengan pelepasan berat terbuka LLM gred sempadan yang dilatih dengan jenaka anggaran (2048 GPU selama 2 bulan, $ 6 juta).
- Andrej Karpathy (@Karpathy) 26 Disember 2024
Untuk rujukan, tahap keupayaan ini sepatutnya memerlukan kelompok yang lebih dekat dengan GPU 16K, yang ... https://t.co/ew7q2pq94b
DeepSeek V3 mewakili lompatan monumental dalam seni bina dan kecekapan latihan AI, menolak sempadan model bahasa berskala besar. Model sumber terbuka ini bukan sahaja menyampaikan prestasi terkini tetapi dengan kecekapan dan skalabiliti yang luar biasa. Inilah yang menjadikan DeepSeek v3 sebagai inovasi yang menonjol:
Deepseek V3 membina rangka kerja yang terbukti dari pendahulunya, DeepSeek V2, mengamalkan perhatian laten multi-kepala (MLA) dan seni bina DeepSeekmoe yang canggih. Inovasi ini memastikan kesimpulan yang cekap dan latihan kos efektif. Lebih-lebih lagi, DeepSeek V3 menggunakan strategi pengimbangan beban bebas bantu, menghapuskan prestasi biasa yang berkaitan dengan mekanisme pengimbangan beban.
Model ini juga mengintegrasikan objektif ramalan multi-token (MTP), meningkatkan keupayaannya untuk meramalkan beberapa token secara serentak. Ini bukan sahaja meningkatkan prestasi tetapi juga membolehkan penyahkodan spekulatif, dengan ketara mempercepatkan kelajuan kesimpulan.
DeepSeek V3 adalah pra-terlatih pada dataset luas sebanyak 14.8 trilion token berkualiti tinggi (untuk memahaminya dengan lebih baik, 1 juta token adalah sekitar 750,000 perkataan), skala yang jauh melampaui pendahulunya. Pra-latihan ini dicapai dengan menggunakan rangka kerja latihan ketepatan campuran FP8 revolusioner, menandakan aplikasi pertama FP8 yang berjaya dalam model skala ultra-besar. Keputusan termasuk:
DeepSeek V3 mengintegrasikan saluran penyulingan pengetahuan yang inovatif, memanfaatkan keupayaan penalaran dari model siri DeepSeek R1. Paip ini menggabungkan corak pengesahan dan refleksi lanjutan ke dalam model, secara dramatik meningkatkan prestasi pemikirannya. Di samping itu, gaya output dan panjang dikawal dengan teliti untuk memastikan fleksibiliti dan konsistensi merentasi tugas.
Penilaian yang meluas mengesahkan bahawa DeepSeek V3 mengatasi semua model sumber terbuka dan saingan yang terkemuka di dalam sistem AI sumber tertutup. Walaupun skala dan kerumitannya yang besar, proses latihan sangat stabil, tanpa pancang kerugian yang tidak dapat dipulihkan atau rollbacks sepanjang kitaran keseluruhan.
DeepSeek V3 adalah bukti kuasa inovasi dan kerjasama, yang menawarkan pemaju dan penyelidik alat yang kuat, berskala, dan kos efektif untuk menangani pelbagai cabaran di AI dan seterusnya. Sifat sumber terbuka memastikan aksesibiliti, membuka jalan untuk penemuan dalam pengekodan, penalaran, dan aplikasi multi-modal.
Berikut adalah pautan untuk dimuat turun:
Model | Jumlah parameter | Panjang konteks | Muat turun |
DeepSeek-V3-base | 671b | 128k | Huggingface |
DeepSeek-V3 | 671b | 128k | Huggingface |
Penilaian ini menyoroti keupayaan unggul DeepSeek-V3 dalam mengendalikan penalaran kompleks, matematik lanjutan, dan tugas pengaturcaraan yang kompetitif.
Juga di sini adalah penilaian generasi terbuka yang terbuka:
Model | Arena-keras | Alpacaeval 2.0 |
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
QWEN2.5-72B-Instruct | 81.2 | 49.1 |
Llama-3.1 405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
Anda juga boleh merujuk ini untuk memahami penilaian dengan lebih baik:
Pautan ke GitHub DeepSeek V3
Berikut adalah hasil penanda aras Polyglot Aider , yang menilai model keupayaan mereka untuk menyelesaikan tugas dengan betul. Penilaian dibahagikan kepada dua format output:
Ini akhirnya mencerminkan kepelbagaian dan kekuatan khusus sistem AI yang berbeza dalam menyelesaikan tugas penanda aras.
Jika anda lebih suka tidak menggunakan UI sembang dan ingin terus bekerja dengan model, ada alternatif untuk anda. Model, DeepSeek-V3, mempunyai semua beratnya yang dikeluarkan pada muka yang memeluk. Anda boleh mengakses fail SafeTensor di sana.
Saiz model dan keperluan perkakasan:
Pertama, model ini besar-besaran, dengan 671 bilion parameter, menjadikannya mencabar untuk menjalankan perkakasan gred pengguna standard. Jika perkakasan anda tidak cukup kuat, disarankan untuk menggunakan platform DeepSeek untuk akses langsung. Tunggu ruang muka yang memeluk jika seseorang menjadi tersedia.
Sekiranya anda mempunyai perkakasan yang mencukupi, anda boleh menjalankan model secara tempatan menggunakan DeepSeek-Infer Demo, SGLANG, LMDEPLOY, TENSORRT-LLM, VLLM, AMD GPU, Huawei Ascend NPU.
Tukar model ke versi kuantitatif untuk mengurangkan keperluan memori, yang sangat berguna untuk sistem rendah.
Berikut adalah cara anda boleh menukar berat FP8 ke BF16:
Skrip Penukaran Sekiranya Anda Memerlukan BF16
kesimpulan CD python fp8_cast_bf16.py-input-fp8-hf-path/path/to/fp8_weights --output-bf16-hf-path/path/to/bf16_weights
Memeluk Perpustakaan Transformers Face tidak menyokong model secara langsung. Untuk menetapkannya, anda perlu:
Klon Deepseek Ai GitHub Repository :
Git Clone https://github.com/deepseek-ai/deepseek-v3.git
Pasang kebergantungan yang diperlukan:
CD DeepSeek-V3/Kesimpulan PIP Install -r syarat.txt
Muat turun pusat pemeriksaan muka yang memeluk dan jalankan model secara tempatan.
Rujuk ini: DeepSeek v3
Cadangan:
Anda juga boleh menggunakan plugin LLM-Deepseek untuk mengakses model:
# Langkah 1: Pasang pakej LLM ! Pip memasang llm # Langkah 2: Pasang plugin DeepSeek ! LLM Pasang llm-deepseek # Langkah 3: Tetapkan kunci API DeepSeek ! Kunci llm menetapkan DeepSeek # Tampal kekunci API anda apabila diminta # Langkah 4: Jalankan model sembang DeepSeek ! llm -m deepseek -chat 'lima nama hebat untuk ocelot haiwan' # Langkah 5: Jalankan Model Coder DeepSeek !
Di platform DeepSeek, anda boleh meneroka web dan terlibat dalam penalaran yang mendalam untuk menyelesaikan masalah yang rumit, sama seperti pendekatan Openai.
Berikut adalah beberapa arahan dan output:
Prompt: Menjana SVG kanak -kanak dan bola sepak
Berikut adalah perwakilan SVG mudah seorang kanak -kanak yang bermain dengan bola sepak. Anda boleh
Salin dan tampal kod ini ke dalam fail HTML atau penonton SVG untuk melihat
Imej:
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 200 200" width="200" ketinggian="200"> <circle cx="100" cy="70" r="20" fill="#ffcc99"></circle> <rect x="90" y="90" width="20" height="40" fill="#4Caf50"></rect> <line x1="80" y1="100" x2="60" y2="110" stroke="#4Caf50" stroke-width="5"></line> <line x1="120" y1="100" x2="140" y2="110" stroke="#4Caf50" stroke-width="5"></line> <line x1="95" y1="130" x2="85" y2="160" stroke="#4Caf50" stroke-width="5"></line> <line x1="105" y1="130" x2="115" y2="160" stroke="#4Caf50" stroke-width="5"></line> <ellipse cx="140" cy="140" rx="10" ry="5" fill="#8b4513"></ellipse> <line x1="135" y1="140" x2="145" y2="140" stroke="#ffffff" stroke-width="2"></line> <line x1="140" y1="137" x2="140" y2="143" stroke="#ffffff" stroke-width="2"></line> </svg> Penjelasan: Kanak -kanak diwakili dengan bentuk mudah: bulatan untuk kepala, segi empat tepat untuk badan, dan garis untuk lengan dan kaki. Bola sepak adalah elips dengan dua garis putih untuk meniru bola sepak klasik reka bentuk. Anda boleh menyesuaikan warna, saiz, dan kedudukan untuk menyesuaikan gambar selanjutnya. Beritahu saya jika anda ingin meningkatkan atau mengubah suai ini!
Prompt: Buat Permainan Ular Klasik
Membuat permainan ular klasik melibatkan menggunakan HTML, CSS, dan JavaScript
. Berikut adalah pelaksanaan yang mudah:
<meta charset="utf-8"> <meta name="viewport" content="width = peranti-lebar, skala awal = 1.0"> <twite> Game Snake <yaya> badan { Paparan: Flex; Justify-Content: Center; Align-item: pusat; Ketinggian: 100VH; Margin: 0; latar belakang warna: #000; } kanvas { Sempadan: 1px pepejal #FFF; } <canvas width="400" height="400"> </canvas> <script src="snake.js"> </script> JavaScript (Snake.js) const kanvas = document.getElementById ("GameCanvas"); const ctx = canvas.getContext ("2d"); const gridSize = 20; const tileCount = canvas.width / gridSize; biarkan ular = [{x: 10, y: 10}]; biarkan arah = {x: 0, y: 0}; Biarkan makanan = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; biarkan skor = 0; fungsi gameloop () { kemas kini (); lukis (); setTimeout (Gameloop, 100); } kemas kini fungsi () { const head = {x: ular [0] .x arah.x, y: ular [0] .y direction.y}; // periksa perlanggaran dengan dinding atau dirinya sendiri jika (head.x = tileCount || head.y = tileCount || ular.some (segmen => segment.x === head.x && segment.y === head.y)) { resetgame (); kembali; } Snake.Unshift (kepala); // periksa sama ada ular memakan makanan jika (head.x === food.x && head.y === food.y) { skor; Makanan = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; } else { snake.pop (); } } fungsi lukis () { // Kosongkan kanvas ctx.fillstyle = "#000"; ctx.fillRect (0, 0, canvas.width, canvas.height); // Lukis ular ctx.fillstyle = "#0f0"; snake.foreach (segmen => ctx.fillrect (segmen.x * gridSize, segment.y * gridsize, gridsize, gridsize)); // Lukis makanan ctx.fillstyle = "#f00"; ctx.fillRect (food.x * gridSize, food.y * gridSize, gridSize, gridSize); // Lukis skor ctx.fillstyle = "#fff"; ctx.font = "20px arial"; ctx.fillText ("SCORE:" SCORE, 10, 30); } fungsi resetgame () { ular = [{x: 10, y: 10}]; arah = {x: 0, y: 0}; skor = 0; Makanan = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; } window.addeventListener ("keydown", e => { suis (e.key) { Kes "Arrowup": jika (arah.y === 0) arah = {x: 0, y: -1}; rehat; Kes "Arrowdown": jika (arah.y === 0) arah = {x: 0, y: 1}; rehat; Kes "Arrowleft": jika (arah.x === 0) arah = {x: -1, y: 0}; rehat; Kes "Arrowright": jika (arah.x === 0) arah = {x: 1, y: 0}; rehat; } }); gameloop (); Bagaimana ia berfungsi: Persediaan Kanvas: Permainan ini ditarik pada elemen <vanvas>. Pergerakan Ular: Ular diwakili sebagai pelbagai segmen. Kepala bergerak berdasarkan arah, dan ekor berikut. Makanan: Kedudukan rawak dijana untuk makanan. Semasa ular makan Makanan, ia tumbuh, dan skor meningkat. Pengesanan Perlanggaran: Permainan memeriksa jika ular bertabrakan dengan dinding atau sendiri, dan menetapkan semula jika ia berlaku. Kawalan: Kekunci anak panah digunakan untuk menukar arah ular. Cara Berjalan: Simpan kod HTML dan JavaScript ke dalam fail (index.html dan snake.js). Buka fail index.html dalam penyemak imbas. Gunakan kekunci anak panah untuk mengawal ular. Beritahu saya jika anda ingin menambah lebih banyak ciri atau memperbaiki permainan! </vanvas></yaya></twite>
Prompt: Bagaimana untuk mengklonkan repositori git?
Pertama, ia berfikir selama 6 saat dan kemudian memberikan output
Pengklonan repositori git melibatkan membuat salinan repositori yang ada<br> dari lokasi terpencil (seperti GitHub, Gitlab, atau Bitbucket) ke tempatan anda<br> mesin. Salinan ini merangkumi semua fail projek, sejarah komitmen, dan<br> cawangan.<br><br> Berikut adalah langkah -langkah untuk mengklon repositori git:<br><br> 1. Pasang git<br> Pastikan git dipasang pada mesin anda. Sekiranya ia tidak dipasang, muat turun<br> dan pasang dari laman web Git Rasmi.<br><br> 2. Terminal terbuka atau arahan arahan<br> Buka terminal anda (linux/mac) atau command prompt (Windows).<br><br> 3. Navigasi ke direktori yang dikehendaki<br> Gunakan arahan CD untuk menavigasi ke direktori di mana anda ingin mengklon<br> repositori.<br><br> bash<br> Salin<br> CD/Path/TO/Direktori<br> 4. Klon repositori<br> Gunakan perintah klon git diikuti oleh URL repositori.<br><br> bash<br> Salin<br> Git Clone https://github.com/username/repository.git<br> Ganti https://github.com/username/repository.git dengan url sebenar<br> repositori yang anda mahu klon.<br><br> 5. Masukkan direktori klon<br> Selepas pengklonan, navigasi ke direktori repositori.<br><br> bash<br> Salin<br> Repositori CD<br> 6. Sahkan klon<br> Anda boleh mengesahkan bahawa repositori diklon dengan betul dengan memeriksa<br> URL Jauh.<br><br> bash<br> Salin<br> git jauh -v<br> Ini harus memaparkan URL repositori jauh.<br><br> Contoh<br> bash<br> Salin<br> # Menavigasi ke direktori yang dikehendaki<br> CD ~/Dokumen<br><br> # Klon repositori<br> Git Clone https://github.com/username/repository.git<br><br> # Masukkan direktori repositori<br> Repositori CD<br><br> # Sahkan URL Jauh<br> git jauh -v<br> Pilihan: Pengklonan Menggunakan SSH<br> Jika anda telah menyediakan kekunci SSH, anda boleh mengklon repositori menggunakan URL SSH:<br><br> bash<br> Salin<br> Git Clone [dilindungi e -mel]: nama pengguna/repositori.git<br> Pilihan: klon cetek<br> Sekiranya anda hanya memerlukan sebahagian daripada sejarah (misalnya, komit terkini), anda boleh<br> Lakukan klon cetek:<br><br> bash<br> Salin<br> Git Clone -depth 1 https://github.com/username/repository.git<br> Ini berguna untuk repositori besar di mana anda tidak memerlukan sejarah penuh.<br><br> Kesimpulan<br> Anda kini berjaya mengklonkan repositori Git ke mesin tempatan anda. Anda<br> Boleh mula bekerja pada projek, membuat perubahan, dan melakukan mereka seperti yang diperlukan.
‼ Sembang deepseek dikuasakan oleh v3 dan berkuasa‼
- Ivan Fioravanti ᯅ (@ivanfioravanti) 25 Disember 2024
Di sini MVP permainan asteroid dengan logo syarikat AI. Sepenuhnya dibina dengannya dalam beberapa minit!
Sonnet 3.5 bukan Raja? lagi? ♂️
Antropik itu giliran anda!
? Artifak dicipta dalam pic.twitter.com/fcmztb52fq
Semua output terpulang kepada tanda, dan kelajuan output agak mengagumkan. Di samping itu, DeepSeek membolehkan anda bertanya soalan pemikiran kepada model, menjadikannya alat yang serba boleh dan efisien untuk penyelesaian masalah yang kompleks dan analisis mendalam.
Juga Baca: DeepSeek V3 vs GPT-4O: Bolehkah sumber terbuka AI bersaing dengan kuasa GPT-4O?
Deepseek V3 berdiri sebagai pencapaian monumental dalam evolusi model AI berskala besar, menggabungkan skala yang belum pernah terjadi sebelumnya dengan kecekapan yang tidak dapat ditandingi. Dengan seni bina yang inovatif, latihan kos efektif, dan 685 bilion parameter yang mengagumkan, DeepSeek V3 mentakrifkan semula apa yang mungkin di ruang AI. Keupayaan model untuk cemerlang dalam penanda aras yang pelbagai, mengatasi kedua-dua pesaing sumber terbuka dan sumber tertutup, menyoroti keupayaannya yang luar biasa.
Bukan sahaja DeepSeek V3 menyampaikan prestasi terkini dalam tugas-tugas seperti pengekodan, penalaran, dan penyelesaian masalah matematik, tetapi juga demokrasi akses kepada AI canggih dengan ketersediaan sumbernya. Pemaju, penyelidik, dan perniagaan dapat memanfaatkan kuasa besarnya, disokong oleh lesen permisif yang memupuk inovasi dan kerjasama.
Dengan mencapai hasil yang luar biasa dengan kos latihan hanya $ 5.5 juta, DeepSeek V3 membuktikan bahawa skalabiliti dan kecekapan dapat wujud bersama, menetapkan standard baru untuk masa depan pembangunan AI. Siaran ini menandakan lonjakan yang ketara ke hadapan, bukan hanya untuk Deepseek, tetapi untuk seluruh komuniti AI, membuka jalan untuk penemuan dalam pembelajaran mesin, pemprosesan bahasa semulajadi, dan seterusnya.
Bermula dengan DeepSeek dan buka kunci potensi penuh! Sertai kursus mesra pemula kami untuk meneroka ciri-ciri dan teknik utama.
Atas ialah kandungan terperinci DeepSeek V3: Model 685B mengalahkan GPT-4O dan Llama 3.1. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!