Pada sidang kemuncak industri, seorang ahli sains akademik dari Universiti Tsinghua mendedahkan bahawa model AI besar kami dilatih pada gugusan Wanka, dan ralat berlaku setiap tiga jam. Walaupun bunyinya agak tidak masuk akal, ini telah mencapai tahap lanjutan dunia
Model AI besar yang popular di seluruh dunia sudah pasti menjadi topik hangat tahun ini, dan bilangannya terus berkembang, mencapai tahap yang menakjubkan. Di tengah-tengah "beratus-ratus saingan yang bersaing untuk kuasa", semua orang sering mengabaikan isu utama: torrent data yang dibawa oleh model AI yang besar adalah lebih bergelora daripada yang dibayangkan.
"Ralat berlaku sekali dalam tiga jam", yang kedengaran seperti kadar kegagalan yang luar biasa, sebenarnya adalah norma yang dihadapi oleh pengamal model besar, malah "pelajar terbaik". Amalan biasa semasa dalam industri ialah menulis pusat pemeriksaan toleransi kesalahan. Memandangkan ralat dilaporkan dalam masa tiga jam, kita harus berhenti setiap 2.5 jam, menulis pusat pemeriksaan, menyimpan data, dan kemudian memulakan latihan semula. Sebaik sahaja kegagalan berlaku, anda boleh pulih dari pusat pemeriksaan bertulis untuk mengelakkan "bermula dari awal" dan melakukan segala-galanya dengan sia-sia. Pusat pemeriksaan perlu menyimpan banyak data dan akan memakan banyak masa. Pasukan ahli akademik membangunkan model besar berdasarkan seni bina llama 2. Ia mengambil masa sepuluh jam untuk menyimpan data dalam perkakasan sekali Kecekapan storan secara langsung mempengaruhi kemajuan pembangunan.
Jika data heterogen berskala besar adalah torrent yang melonjak secara tidak sengaja, sistem storan adalah sungai yang membawa aliran data, lebar dan kepejalannya secara langsung menentukan sama ada data akan disekat atau bertakung, sekali gus menyekat talian hayat model AI yang besar. Boleh dikatakan bahawa produktiviti dan kecekapan keseluruhan industri model besar adalah "terhad atas" oleh storan.
Inilah sebabnya storan, sebagai infrastruktur data AI, telah mendapat lebih banyak perhatian.
Pada 29 November, "Digital Innovation AI Future" 2023 China Data and Storage Summit telah diadakan di Beijing. Sugon Storage telah mengeluarkan penyelesaian storan untuk model AI yang besar.
Ambil peluang ini untuk mengetahui tentang cabaran pembawa beban yang dibawa ke storan oleh gelombang model besar AI, dan cara Sugon Storage menerajui industri pintar dan meningkatkan kejayaan model besar AI.
Model besar AI memasuki kawasan perairan dalam industri, dan kaedah penyimpanan tradisional menghadapi cabaran data
Saya baru-baru ini pergi ke Yunnan dan mendapati bahawa bukan sahaja pembinaan model besar sedang giat dijalankan di hab sains dan teknologi seperti Beijing, Shanghai dan Guangzhou, tetapi juga di bandar-bandar tingkat kedua dan ketiga seperti Kunming dan Dali, dan malah di kawasan sempadan, aplikasi industri model besar sedang diterokai secara aktif.
Ketika semua lapisan masyarakat bergerak ke arah kecerdasan, hampir kesemua mereka telah mencetuskan minat yang membara terhadap model besar. Pada masa ini, isu utama juga muncul: trend perindustrian model AI yang besar memerlukan peningkatan infrastruktur storan.
Setiap kali pembangun model berlatih, data menimbulkan pelbagai cabaran kepada sistem storan:
2.Belenggu kesesakan data. Pemprosesan data berskala sangat besar adalah perlahan dan memakan masa Pengumpulan, pengelasan, penempatan semula dan proses lain memakan masa dan susah payah Apabila prestasi storan tidak dapat bersaing, pemprosesan fail besar menjadi perlahan, lebih banyak bacaan dan kurang menulis, dan menunggu di pusat pemeriksaan mengambil masa yang lama, yang akan Melambatkan kemajuan pembangunan dan meningkatkan kos pembangunan.
3. Arus bawah data kompleks. Selain itu, model AI yang besar menggunakan sejumlah besar data heterogen, dengan format fail yang kompleks, jenis set data yang pelbagai dan lonjakan jumlah storan tradisional sukar untuk menghadapi cabaran kerumitan data dan terdedah kepada masalah pencernaan , mengakibatkan kecekapan capaian data yang rendah Akibatnya, kecekapan operasi model berkurangan, penggunaan kuasa pengkomputeran latihan meningkat, dan sumber pengkomputeran GPU yang mahal tidak boleh "diperah". Sebagai contoh, balai cerap suria tempatan di Yunnan menggunakan model pengkomputeran saintifik AI untuk mempelajari imej besar-besaran bagi mempersembahkan rupa sebenar matahari, menjana 2TB data imej setiap hari Kecekapan pemprosesan storan semasa adalah rendah, yang akan membawa kepada pemuatan yang perlahan set latihan dan kitaran pemprosesan data yang panjang Memperlahankan proses penyelidikan.
4. Kebimbangan keselamatan data. Pada masa ini, model AI yang besar telah menembusi secara mendalam ke dalam pelbagai industri Mereka memerlukan sokongan data yang besar semasa latihan, pembangunan dan pelaksanaan aplikasi, termasuk data yang mengandungi maklumat sensitif industri atau peribadi Jika tiada mekanisme penyahpekaan data dan pengehosan data yang munasabah, Ia mungkin menyebabkan kebocoran data dan menyebabkan kerugian kepada industri dan individu. Pada masa yang sama, risiko keselamatan model juga perlu diambil serius Sebagai contoh, pemalam mungkin ditanam dengan kandungan berbahaya dan menjadi alat untuk penjenayah melakukan penipuan dan "keracunan", membahayakan keselamatan sosial dan industri.
Model berskala besar AI sedang menuju ke zon perairan dalam industri Apa yang menggembirakan ialah inovasi teknologi ini disepadukan secara mendalam ke dalam semua lapisan masyarakat untuk memenuhi keperluan kecerdasan dan penuh dengan daya hidup. Walau bagaimanapun, terdapat juga beberapa kebimbangan Kejuruteraan data memainkan peranan penting dalam keseluruhan kitaran hayat model besar, termasuk pengumpulan data, pembersihan, latihan, penggunaan inferens dan penalaan maklum balas, yang kesemuanya memerlukan sejumlah besar data. Walau bagaimanapun, masalah penyimpanan telah menjadi halangan, yang bermaksud bahawa model AI yang besar mungkin menghadapi kesesakan data, kegagalan dan ketidakcekapan pada semua peringkat, yang akan membawa kepada kitaran pembangunan yang sangat tinggi dan kos komprehensif model besar, di luar kemampuan industri.
Untuk mengelakkan pengelodak dan sokongan data serta memupuk pembangunan industri model berskala besar, kita perlu mengorek "sungai" simpanan. Sugon Storage menyediakan penyelesaian baharu, yang menemui kes rujukan yang berharga untuk kami
"saluran" data berkualiti tinggi, Sugon Storage memberikan jawapan kepada industri model besar
Selepas berkomunikasi dengan pembangun model AI yang besar, saya mendapat kesimpulan yang jelas: tidak perlu membincangkan membina sistem storan baharu yang menyesuaikan diri dengan model AI yang besar. Penyelesaian
Memahami keperluan storan industri, Sugon Storage mencipta penyelesaian storan model besar AI berdasarkan storan khusus model besar ParaStor, dan menulis jawapannya sendiri.
Sugon Storage AI kelompok storan model besar mempunyai tiga keupayaan utama: gabungan heterogen, prestasi muktamad dan keselamatan asli.
Pertama sekali, kami boleh menyediakan ratusan bilion perkhidmatan storan fail, dan skala pengembangannya hampir tidak terhad. Kami juga telah menyelesaikan secara khusus masalah kepelbagaian protokol akses data dan menyokong protokol storan berbilang seperti fail dan objek untuk mengelakkan penyalinan data antara sistem storan yang berbeza
Kedua, sebagai tindak balas kepada permintaan tinggi untuk kecekapan pemprosesan data dalam proses pembangunan model besar AI, kelompok storan model besar AI Sugon Storage boleh menyediakan pelbagai keupayaan pengoptimuman prestasi IO data seperti pecutan cache berbilang peringkat, pecutan data XDS dan pintar penghalaan berkelajuan tinggi.
Untuk memastikan keselamatan data sepanjang keseluruhan proses, nod storan Sugon menyediakan keupayaan keselamatan peringkat cip dan menyokong set arahan rahsia negara. Melalui kebolehpercayaan berbilang peringkat, ia dapat memastikan kluster storan beroperasi secara stabil sepanjang keseluruhan kitaran latihan dan pembangunan, selaras dengan dasar dan trend keselamatan masa hadapan
Sesetengah orang mungkin bertanya, terdapat begitu banyak penyelesaian storan di pasaran, dan ada juga yang mengiklankan untuk memberikan sokongan profesional untuk pembangunan model. Apakah nilai terbeza bagi penyelesaian Sugon Storage?
Jika anda keliru tentang terma teknikal dan butiran produk setiap syarikat, anda mungkin ingin menggunakan beberapa perkataan untuk mengingati nilai terbeza bagi kelompok storan model besar Sugon Storage AI:
1. Paduan heterogen, prestasi muktamad, dan keselamatan asli peringkat cip menunjukkan kemajuan teknologi Storan Sugon, dan juga secara khusus menyelesaikan masalah volum data yang besar, bentuk data yang kompleks dan pelbagai, kecekapan pemprosesan rendah, dan masa penyimpanan dan pengiraan yang panjang dalam besaran pembangunan model.
2. Infrastruktur data AI berprestasi tinggi adalah berdasarkan inovasi yang dibangunkan sendiri oleh Sugon Storage, yang lebih dipercayai dan selamat, selaras dengan dasar inovasi maklumat dan arah aliran keselamatan masa hadapan. Ia boleh membantu pembekal perkhidmatan model besar domestik mengelakkan risiko rantaian bekalan di luar negara , daripada keselamatan rantaian bekalan, keselamatan data, dan model Keselamatan dan aspek lain melindungi pembangunan industri model besar.
3. Sugon Storage telah mencipta penyelesaian AI dimensi penuh yang meliputi rangkaian, pengkomputeran dan platform, menyokong operasi yang stabil sepanjang kitaran latihan dan pembangunan, yang boleh mengurangkan kos keseluruhan dan membolehkan pembangun model besar dan pelanggan industri bergerak ke hadapan tanpa perlu risau.
Untuk meringkaskan, pada "saluran" berkualiti tinggi yang dibina oleh Sugon Storage, data berskala besar boleh diproses dengan cekap dan pembangunan model AI yang besar boleh dipercepatkan Oleh itu, industri dan perusahaan boleh menerajui penyepaduan model besar secara mendalam dengan senario menegak dan perniagaan Dapatkan tiket anda ke zaman pintar.
Titik permulaan baharu paradigma kelima, memerhati adegan banyak syarikat bersaing untuk maju dan berkembang
Pemenang Anugerah Turing Jim Gray pernah mencadangkan paradigma keempat, yang terasnya dipacu data. Dengan "kemunculan kecerdasan" dalam model bahasa yang besar, paradigma kelima "didorong kepintaran" lebih memfokuskan pada gabungan organik data dan kecerdasan, menjadi logik asas baharu yang menyokong revolusi saintifik dan revolusi perindustrian.
Semua yang lepas adalah prolog. Ini benar untuk kecerdasan buatan, begitu juga dengan penyimpanan
Pada persidangan ini, Hui Runhai, presiden Syarikat Penyimpanan Sugon, telah dianugerahkan gelaran "Perintis Penyimpanan" untuk 20 tahun pengalaman industrinya dan amalan utama dalam penemuan teknologi storan AI, penyelidikan dan pembangunan storan penyejuk cecair serta bidang lain. Di bawah kepimpinannya, Sugon mengedarkan storan fail terus menerajui pasaran selama bertahun-tahun, menduduki tempat teratas dalam bahagian pasaran. Penyelesaian storan data untuk model besar AI telah sekali lagi membawa Sugon Storage ke hadapan pada masa ini.
Kluster storan model besar AI Sugon Storage sedang giat mempraktikkan anjakan paradigma untuk menyesuaikan diri dengan paradigma data baharu dan menggalakkan pembangunan giat perindustrian model besar melalui penemuan dalam infrastruktur data
Seterusnya, dalam paradigma baharu dan titik permulaan baharu industri storan, pada "sungai" data berkualiti tinggi Sugon Storage, kita akan melihat beratus-ratus syarikat bersaing untuk model industri besar, beribu-ribu aplikasi AI berlumba-lumba dan mempercepatkan ke arah China pintar.
Atas ialah kandungan terperinci Model besar AI sedang belayar ke arah lautan industri, dan 'sungai' data berkualiti tinggi diperlukan untuk membimbing mereka.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!