Bagaimanakah DSA mengatasi GPU NVIDIA di sudut?
Anda mungkin pernah mendengar pendapat tajam berikut:
1 Jika anda mengikuti laluan teknikal NVIDIA, anda mungkin tidak akan dapat mengejar NVIDIA.
2 DSA mungkin berpeluang untuk mengejar NVIDIA, tetapi keadaan semasa ialah DSA di ambang kepupusan dan tidak ada harapan lagi
Sebaliknya, kita semua tahu bahawa model besar sekarang. di barisan hadapan, dan ramai orang dalam industri ingin membuat Cip model besar, terdapat juga ramai orang yang ingin melabur dalam cip model besar.
Tetapi apakah kunci kepada reka bentuk cip model besar Semua orang nampaknya tahu kepentingan lebar jalur yang besar dan memori yang besar, tetapi bagaimanakah cip itu dibuat berbeza daripada NVIDIA?
Dengan soalan, artikel ini cuba memberi anda sedikit inspirasi.
Artikel yang berdasarkan pendapat selalunya kelihatan formalistik. Kita boleh menggambarkannya melalui contoh seni bina
SambaNova Systems dikenali sebagai salah satu daripada sepuluh syarikat unicorn terbaik di Amerika Syarikat. Pada April 2021, syarikat itu menerima pelaburan Siri D AS$678 juta yang diketuai oleh SoftBank, dengan penilaian mencecah AS$5 bilion, menjadikannya sebuah syarikat super unicorn. Sebelum ini, pelabur SambaNova termasuk dana modal teroka terkemuka dunia seperti Google Ventures, Intel Capital, SK dan Samsung Catalytic Fund. Jadi, apakah perkara yang mengganggu yang dilakukan oleh syarikat super unicorn ini yang telah menarik minat institusi pelaburan terkemuka dunia? Dengan memerhatikan bahan promosi awal mereka, kita dapati bahawa SambaNova telah memilih laluan pembangunan yang berbeza daripada NVIDIA gergasi AI
Bukankah ia agak mengejutkan? Kluster 1024 V100 yang dibina dengan kuasa yang tidak pernah berlaku sebelum ini pada platform NVIDIA sebenarnya bersamaan dengan mesin tunggal daripada SambaNova? ! Ini adalah produk generasi pertama, mesin 8 kad yang berdiri sendiri berdasarkan SN10 RDU.
Sesetengah orang mungkin mengatakan bahawa perbandingan ini tidak adil Bukankah NVIDIA mempunyai DGX A100 Mungkin SambaNova sendiri telah menyedarinya, dan produk generasi kedua SN30 telah ditukar kepada ini:
DGX A100 mempunyai pengkomputeran. kuasa 5 petaFLOPS , DataScale generasi kedua SambaNova juga mempunyai kuasa pengkomputeran sebanyak 5 petaFLOPS. Perbandingan memori 320GB HBM vs 8TB DDR4 (editor meneka bahawa dia mungkin telah salah menulis artikel, ia sepatutnya 3TB * 8).
Cip generasi kedua sebenarnya adalah versi Die-to-Die bagi SN10 RDU. Penunjuk seni bina SN10 RDU ialah: 320TFLOPS@BF16, 320M SRAM, 1.5T DDR4. SN30 RDU digandakan berdasarkan ini, seperti yang diterangkan di bawah:
“Cip ini mempunyai 640 unit pengiraan corak dengan lebih daripada 320 teraflop pengiraan pada ketepatan titik terapung BF16 dan juga mempunyai 640 unit memori corak dengan 320 MB SRAM pada cip dan 150 TB/saat lebar jalur memori pada cip Setiap pemproses SN10 juga dapat menangani 1.5 TB memori tambahan DDR4." "Dengan Cardinal SN30 RDU, kapasiti RDU digandakan, dan sebabnya adalah dua kali ganda. bahawa SambaNova mereka bentuk seni binanya untuk menggunakan pembungkusan berbilang mati dari permulaan, dan dalam kes ini SambaNova menggandakan kapasiti mesin DataScalenya dengan menjejalkan dua RDU baharu – apa yang kami duga ialah dua SN10 yang diubah suai dengan perubahan mikroarkitektur kepada menyokong model asas besar yang lebih baik – menjadi satu kompleks yang dipanggil SN30 Setiap soket dalam sistem DataScale kini mempunyai dua kali kapasiti pengiraan, dua kali ganda kapasiti memori tempatan dan dua kali lebar jalur memori bagi mesin generasi pertama.”
Key. mata diekstrak:Jalur lebar yang besar dan kapasiti besar hanya boleh dipilih daripada dua pilihan NVIDIA memilih HBM lebar jalur besar, manakala SambaNova memilih DDR4 berkapasiti besar. Dari segi keputusan prestasi, SambaNova menang.
Jika anda bertukar kepada DGX H100, walaupun anda bertukar kepada teknologi berketepatan rendah seperti FP8, anda hanya boleh mengecilkan jurang.
“Walaupun DGX-H100 menawarkan 3X prestasi pada pengiraan titik terapung 16-bit daripada DGX-A100, ia tidak akan menutup jurang dengan sistem SambaNova Walau bagaimanapun, dengan ketepatan data FP8 yang lebih rendah, Nvidia mungkin dapat menutup jurang prestasi; tidak jelas berapa banyak ketepatan yang akan dikorbankan dengan beralih kepada data dan pemprosesan ketepatan yang lebih rendah.”
Jika seseorang boleh mencapai kesan sedemikian, bukankah ia merupakan penyelesaian cip besar yang sempurna? Dan ia juga boleh terus menghadapi saingan daripada NVIDIA!
(Mungkin anda akan mengatakan bahawa CPU Grace juga boleh disambungkan ke LPDDR, yang membantu untuk meningkatkan kapasiti. Sebaliknya, bagaimana SambaNova melihat perkara ini: Grace hanyalah pengawal memori yang besar, tetapi ia hanya boleh membawa 512GB kepada Hopper. daripada DRAM, dan SN30 mempunyai 3TB DRAM
Kami pernah bergurau bahawa CPU Arm "Grace" Nvidia hanyalah pengawal memori yang berlebihan untuk GPU Hopper, dan dalam banyak kes ia sebenarnya hanyalah pengawal memori. Dan GPU Hopper dalam setiap pakej cip super Grace-Hopper hanya mempunyai maksimum 512GB memori Ini masih jauh kurang daripada 3TB memori yang disediakan oleh SambaNova setiap slot mungkin kena berhati-hati
tu
Xia He, tuan Huawei, baru-baru ini membuat spekulasi bahawa kelemahan empayar NVIDIA mungkin terletak pada kos setiap GB dari perspektif kos Dia mencadangkan susunan memori DDR murah untuk input/output dalaman berskala besar mungkin memberi impak revolusioner pada NVIDIA
(Sambungan:https://www.php.cn/link/617974172720b96de92525536de581fa)
Dan seorang lagi ahli Zhihu, Mackler yang mengkaji, DSA. $/GBps (pergerakan data), HBM lebih menjimatkan kos kerana walaupun LLM mempunyai permintaan yang agak besar untuk kapasiti memori, ia juga mempunyai permintaan yang besar untuk lebar jalur memori. Latihan memerlukan sejumlah besar parameter yang perlu ditukar dalam DRAM . . pertimbangan teras!
Tetapi menurut pandangan Mackler, keperluan lebar jalur yang besar untuk pemindahan data juga menjadi masalah. Jadi bagaimana SambaNova menyelesaikannya?Anda perlu lebih memahami ciri-ciri seni bina RDU Sebenarnya, ia mudah difahami:
A ialah paradigma pertukaran data dalam seni bina GPU tradisional. cip DRAM untuk bertukar data Pertukaran bolak-balik Ini sepatutnya lebih mudah untuk memahami bahawa ia menduduki sejumlah besar lebar jalur DDR. B ialah apa yang boleh dicapai oleh seni bina SambaNova Semasa proses pengiraan model, sebahagian besar pergerakan data disimpan pada cip, dan tidak perlu berulang-alik ke DRAM untuk pertukaran. Oleh itu,
Jika anda boleh mencapai kesan seperti B, masalah memilih antara lebar jalur besar dan kapasiti besar, anda boleh memilih kapasiti besar dengan selamat. Ini adalah seperti petikan berikut:
“Persoalan yang kami ada ialah ini: Apakah yang lebih penting dalam seni bina memori hibrid yang menyokong model asas, kapasiti memori atau lebar jalur memori Anda tidak boleh mempunyai kedua-duanya berdasarkan teknologi memori tunggal? mana-mana seni bina, dan walaupun anda mempunyai gabungan kenangan yang pantas dan kurus serta lambat dan gemuk, di mana Nvidia dan SambaNova melukis garis adalah berbeza.”
Menghadapi NVIDIA yang berkuasa, kami bukan tanpa harapan! Walau bagaimanapun, mengikuti strategi GPGPU NVIDIA mungkin tidak dapat dilaksanakan. Nampaknya idea yang betul untuk cip besar ialah menggunakan DRAM kos rendah Dengan spesifikasi kuasa pengkomputeran yang sama, prestasi boleh mencapai lebih daripada 6 kali ganda daripada NVIDIA.
Bagaimanakah seni bina RDU/DataFlow SambaNova mencapai kesan B? Atau adakah cara lain untuk mencapai kesan yang serupa dengan B? Kami akan berkongsi dengan anda lain kali. Rakan-rakan yang berminat, sila teruskan memberi perhatian kepada kemas kini kami
Bahan bacaan lanjutan:
[1]https://sambanova.ai/blog/a-new- state-of-the-art-in-nlp-beyond-gpus/
[2]https://www.nextplatform.com/2022/09/17/sambanova-doubles-up-chips-to-chase -ai- foundation-models/
[3]https://hc33.hotchips.org/assets/program/conference/day2/SambaNova%20HotChips%202021%20Aug%2023%20v1.pdf
4]《MELATIH MODEL BAHASA BESAR DENGAN CEKAP DENGAN KESEPARAAN DAN ALIRAN DATA》[5]https://www.php.cn/link/617974172720b96de92525536de581family sepuluh ialah: [6]https ://www. php.cn/link/a56ee48e5c142c26cf645b2cc23d78fc
Atas ialah kandungan terperinci Bagaimanakah DSA mengatasi GPU NVIDIA di sudut?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au
