Pada 30 Mei, pada persidangan keputusan Forum Zhongguancun 2023, "Pelan Pelaksanaan untuk Beijing Mempercepatkan Pembinaan Pusat Inovasi Kepintaran Buatan Berpengaruh Global (2023-2025)" telah dikeluarkan secara rasmi. "Pelan Pelaksanaan" menghendaki entiti inovasi disokong untuk memberi tumpuan kepada penemuan dalam teknologi seperti rangka kerja pembelajaran mendalam yang cekap dan infrastruktur baharu untuk model besar yang diedarkan, dan berusaha untuk mempromosikan inovasi teknologi yang berkaitan dengan model besar.
Ini dianggap oleh industri sebagai satu lagi bukti bahawa China akan bersungguh-sungguh mempromosikan pembangunan model besar. Malah, baru-baru ini, daripada kementerian dan suruhanjaya pusat ke wilayah dan bandar tempatan, kecenderungan dasar ke arah membangunkan teknologi AI dan merebut peluang model besar telah meningkat, kedua-dua kepadatan pengenalan dasar dan ketinggian strategik keseluruhan telah mencapai tahap yang menakjubkan .
Ada sebab untuk mempercayai bahawa China akan mencapai lonjakan dalam AI dengan model besar sebagai titik terobosan. Sejak melancarkan strategi pembangunan kecerdasan buatan generasi baharu pada 2017, China akan terus berkembang dalam tetingkap peluang semasa dan menggalakkan ledakan keseluruhan industri AI.
Kita semua tahu bahawa merebut peluang pembangunan AI memerlukan penemuan teknologi dan pembinaan infrastruktur Apabila ia berkaitan dengan infrastruktur industri AI, cip AI, rangka kerja pembelajaran mendalam, dan model besar yang telah dilatih secara amnya. Satu lagi isu utama sering diabaikan: model besar akan membawa tekanan data yang besar, dan penyimpanan data juga merupakan tulang belakang proses pembangunan AI.
ChatGPT ialah peneraju pusingan letupan AI ini, dan masalah data yang disebabkan oleh aplikasi berskala besar model besar sebenarnya telah ditulis dalam ChatGPT.
Menghadapi tekanan yang akan datang ini, adakah China bersedia?
Melihat kepada cabaran data yang dibawa oleh kebangkitan AI daripada ChatGPT
Sejak Google mengeluarkan BERT pada 2018, industri telah memulakan jalan ke pra-latihan model besar. Ciri model besar ialah skala data latihan dan parameter model adalah besar, yang akan membawa cabaran teruk kepada penyimpanan, yang juga jelas dalam ChaGPT.
Apa yang dipanggil "kebesaran" model besar pra-latihan dicerminkan dalam rangkaian pembelajaran mendalam model yang mempunyai banyak lapisan, banyak pautan, parameter kompleks dan jenis set data yang digunakan untuk latihan adalah lebih kompleks dan jumlah data lebih kaya. Apabila algoritma pembelajaran mendalam mula-mula dilahirkan, model arus perdana hanya mempunyai beberapa juta parameter, tetapi apabila BERT dikeluarkan, parameter model telah melebihi 100 juta, memajukan pembelajaran mendalam ke peringkat model besar. Pada peringkat ChatGPT, model arus perdana sudah mempunyai ratusan bilion parameter, malah industri telah mula merancang trilion model. Dalam beberapa tahun, parameter model AI telah meningkat beribu-ribu kali, dan data dan model yang begitu besar perlu disimpan Ini telah menjadi ujian utama pertama untuk penyimpanan yang disebabkan oleh wabak AI.
Selain itu, ia akan disebut secara meluas bahawa model AI yang besar menggunakan struktur model baharu, jadi ia akan mempunyai kesan penyerapan dan keteguhan yang lebih baik kepada data tidak berstruktur Ini sangat penting untuk kesan akhir AI, tetapi ia juga membawa Berikut ialah soalan terbitan: Kita perlu mengendalikan penyimpanan dan memanggil semula sejumlah besar data tidak berstruktur dengan betul. Sebagai contoh, ChatGPT telah menambah keupayaan pelbagai mod seperti pengecaman imej selepas menaik taraf, jadi data latihannya juga perlu menambah sejumlah besar gambar di atas teks Contoh lain ialah kenderaan pandu sendiri, yang perlu menyimpan sejumlah besar video ujian lapangan setiap hari sebagai asas untuk latihan model. Pertumbuhan data tidak berstruktur ini telah membawa masalah pertumbuhan besar-besaran data berkaitan AI, yang melibatkan penyimpanan dan pemprosesan data.
Menurut statistik, 80% daripada data baharu dunia pada masa ini adalah data tidak berstruktur, dengan kadar pertumbuhan tahunan kompaun sebanyak 38%. .
Terdapat masalah lain Model besar selalunya memerlukan pembacaan dan panggilan data yang kerap. Penggunaan akses data ChatGPT mencecah 1.76 bilion kali dalam sebulan, dan purata kelajuan tindak balas adalah dalam masa 10 saat Aliran kerja model AI merangkumi empat bahagian: pengumpulan, penyediaan, latihan dan penaakulan jenis data yang berbeza. Oleh itu, model besar juga mengenakan keperluan pada prestasi storan.
Selain itu, satu siri kedaulatan data dan pertikaian perlindungan data yang mengelilingi ChatGPT juga mengingatkan kami bahawa model AI yang besar membawa risiko baharu kepada keselamatan data. Bayangkan, jika penjenayah menyerang pangkalan data dan menyebabkan model bahasa besar menghasilkan maklumat yang salah untuk menipu pengguna, bahayanya akan menjadi serius dan tersembunyi.
Diambil bersama, walaupun ChatGPT bagus, ia menimbulkan cabaran dari segi skala penyimpanan data, prestasi, keselamatan, dsb. Apabila kami komited untuk membangunkan model besar dan aplikasi seperti ChatGPT, storan mesti diluluskan.
China mempunyai kekuatannya, adakah ia bersedia?
Dalam beberapa tahun kebelakangan ini, kami telah mengatakan bahawa kuasa pengkomputeran adalah produktiviti. Tetapi jika anda merancang, anda mesti mempunyai simpanan Had simpanan juga menentukan had atas pembangunan produktiviti digital.
Jadi, adakah China bersedia untuk lonjakan model berskala besar China yang tidak dapat dielakkan? Malangnya, dari beberapa aspek, persiapan China untuk mengekalkan kekuatan hari ini masih tidak mencukupi dan perlu dipertingkatkan dan dibangunkan lagi. Kami boleh memberi perhatian kepada beberapa masalah di Cunli China untuk melihat sama ada mereka boleh mengatasi tekanan data yang dibawa oleh model besar.
1. Kapasiti yang tidak mencukupi mengehadkan had atas pembangunan industri AI
Model besar akan membawa sejumlah besar data, jadi keutamaan pertama ialah menyimpan data ini dengan betul. Tetapi pada peringkat semasa, China masih menghadapi masalah kapasiti storan yang tidak mencukupi, dan sejumlah besar data tidak dapat memasuki peringkat penyimpanan. Berdasarkan data pada 2022, pengeluaran data China telah mencapai 8.1ZB yang menakjubkan, menduduki tempat kedua di dunia. Walau bagaimanapun, kapasiti storan China hanya kira-kira 1,000 EB, yang bermaksud bahawa kadar storan data hanya 12%, dan sebahagian besar data tidak dapat disimpan dengan berkesan. Walaupun China telah mentakrifkan dengan jelas status data sebagai faktor pengeluaran kelima, dan pembangunan perisikan perlu bergantung pada data dan menggunakan sepenuhnya data, terdapat sejumlah besar data yang sukar untuk disimpan tidak serius. China masih perlu mengekalkan pertumbuhan kapasiti berkelajuan tinggi dan berskala besar untuk merebut peluang pembangunan teknologi AI yang dibawa oleh model besar.
2 Di bawah kesan data yang besar, kecekapan pengurusan dan kecekapan akses adalah rendah
Seperti yang dinyatakan sebelum ini, cabaran data utama yang dibawa oleh model AI yang besar ialah ketidakcekapan mengurus data yang besar dan memproses pemerolehan dan penyimpanan data. Meningkatkan kecekapan capaian memerlukan data disimpan dan ditulis dengan cara yang cekap tinggi, menggunakan tenaga rendah Walau bagaimanapun, pada masa ini 75% data di China masih menggunakan pemacu keras mekanikal. Berbanding dengan pemacu kilat, pemacu keras mekanikal mempunyai ketumpatan kapasiti yang rendah, bacaan data yang perlahan, penggunaan tenaga yang tinggi, dan kebolehpercayaan yang lemah Secara relatifnya, ingatan semua denyar mempunyai beberapa kelebihan seperti ketumpatan tinggi, penggunaan tenaga yang rendah, prestasi tinggi dan. kebolehpercayaan yang tinggi Walau bagaimanapun, Penggantian memori serba kilat China masih jauh lagi.
3. Pelbagai kebimbangan data membawa kepada situasi keselamatan storan yang serius
Isu keselamatan data telah menjadi kebimbangan segera bagi syarikat AI dan juga industri AI. Pada tahun 2020, insiden keselamatan data berlaku di syarikat Clearview AI di Amerika Syarikat, mengakibatkan kebocoran 3 bilion keping data daripada lebih 2,000 pelanggan. Kes ini menunjukkan kepada kita bahawa situasi keselamatan data dalam industri AI adalah sangat serius, dan kita mesti memberi perhatian kepada keselamatan bermula dari peringkat penyimpanan data. Terutama apabila model AI yang besar memainkan peranan yang semakin penting dalam ekonomi negara dan mata pencarian rakyat, adalah lebih perlu untuk meningkatkan keupayaan keselamatan storan untuk menangani pelbagai kemungkinan risiko.
Secara objektif, China Cunli telah mengekalkan kelajuan pembangunan yang tinggi, tetapi ia masih mempunyai kekurangan tertentu dari segi skala keseluruhan, perkadaran memori semua denyar dan keupayaan inovasi teknologi. Masanya telah tiba untuk peningkatan storan yang memenuhi keperluan perisikan industri dan pelaksanaan AI berskala besar.
Menghadapi era pintar, peluang dan hala tuju industri storan
Menggabungkan tekanan yang dibawa oleh model AI besar yang diwakili oleh ChatGPT kepada storan, serta status pembangunan kapasiti storan China itu sendiri, kami boleh membuat kesimpulan dengan jelas: Storan China mesti menyokong kebangkitan AI dan melengkapkan skala besar naik taraf.
Kami dapat melihat dengan jelas hala tuju pembangunan industri storan.
Pertama sekali, adalah perlu untuk mengembangkan skala kapasiti storan dan mempercepatkan pembinaan memori semua denyar.
Trend "silikon masuk dan keluar magnet" menggantikan pemacu keras mekanikal dengan memori semua denyar telah menjadi trend pembangunan keseluruhan industri storan selama ini. Menghadapi peluang industri yang timbul daripada kebangkitan AI, industri storan China perlu mempercepatkan pelaksanaan dan pelaksanaan penggantian memori semua denyar dan memaksimumkan kelebihan memori semua denyar seperti prestasi tinggi dan kebolehpercayaan yang tinggi untuk menampung keperluan storan data. dibawakan oleh model AI yang besar.
Selain itu, adalah penting untuk ambil perhatian bahawa peluang untuk storan teragih semua denyar semakin meningkat. Dengan peningkatan model AI yang besar dan ledakan data tidak berstruktur, kepentingan data meningkat dengan ketara Pada masa yang sama, AI telah menembusi teras pengeluaran perusahaan kerajaan yang besar lebih ramai pengguna perusahaan cenderung untuk menjalankan latihan dan menerima pakai AI setempat Latihan AI berasaskan fail, daripada meletakkan data pada platform awan awam, telah membawa kepada peningkatan dan pengukuhan permintaan untuk storan teragih.
Gabungan kedua-duanya akan terus mempromosikan dengan pantas pelaksanaan all-flash dalam industri storan, dan ia akan menjadi landasan teras untuk pembangunan industri storan China.
Kedua, inovasi teknologi storan perlu dipertingkatkan untuk menyesuaikan diri dengan keperluan pembangunan model AI.
Seperti yang dinyatakan di atas, ujian data yang dibawa oleh AI bukan sahaja berskala besar data, tetapi juga cabaran kerumitan data dan kepelbagaian proses aplikasi Oleh itu, kemajuan storan mesti dipertingkatkan lagi. Sebagai contoh, untuk menampung keperluan capaian data yang kerap AI, lebar jalur baca dan tulis storan dan kecekapan capaian perlu ditingkatkan. Untuk memenuhi keperluan data model AI yang besar, industri storan perlu menjalankan peningkatan teknikal yang komprehensif.
Dari segi format storan data, niat reka bentuk asal bagi format data tradisional, seperti "fail" dan "objek", adalah tidak sepadan dengan keperluan latihan model AI, dan format data data tidak berstruktur adalah tidak seragam , menyukarkan model AI untuk Dalam proses memanggil data, banyak kerja akan diperlukan untuk memahami semula dan menyelaraskan format fail, yang akan membawa kepada penurunan kecekapan pengendalian model dan peningkatan dalam penggunaan kuasa pengkomputeran latihan .
Atas sebab ini, "Paradigma Data" baharu perlu dibentuk di bahagian storan. Mengambil latihan memandu autonomi sebagai contoh, jenis data yang berbeza terlibat dalam proses latihan data Jika paradigma data baharu diguna pakai di bahagian storan, ia boleh membantu menyatukan pelbagai data dan menyesuaikan diri dengan latihan model AI dengan lebih baik latihan kenderaan autonomi. Sebagai contoh, jika anda membayangkan AI sebagai haiwan baharu, ia perlu memakan jenis suapan baharu. Jika anda memberinya data dalam format tradisional, ia akan mengalami masalah senak sesuai sepenuhnya untuk AI, menjadikan proses "menyuap AI" lancar.
Dalam kerja pembangunan AI, pengurusan data menyumbang sebahagian besar beban kerja, dan terdapat juga masalah pulau data antara set data yang berbeza Teknologi tenunan data boleh menangani masalah ini dengan berkesan. Melalui jalinan data, storan boleh mempunyai keupayaan analisis data terbina dalam dan menyepadukan data berselerak secara fizikal dan logik untuk membentuk pandangan global mengenai penjadualan data dan keupayaan aliran, dengan itu menguruskan data besar-besaran yang dibawa oleh AI dengan berkesan dan meningkatkan kecekapan penggunaan data.
Inovasi teknologi pada bahagian storan ini boleh membentuk kesesuaian yang lebih rapat antara storan data dan pembangunan AI.
Selain itu, keupayaan keselamatan perlu dimasukkan ke dalam storan itu sendiri untuk mengukuhkan keupayaan keselamatan yang aktif.
Apabila nilai AI meningkat, isu keselamatan data membawa lebih banyak kerugian kepada pengguna perusahaan. Oleh itu, perusahaan mesti meningkatkan keupayaan keselamatan data mereka. Perkara yang paling penting ialah meningkatkan daya tahan data, menjadikan storan itu sendiri mempunyai keupayaan keselamatan dan melindungi keselamatan data daripada sumbernya. Seterusnya, lebih banyak keupayaan daya tahan data akan dibenamkan ke dalam produk storan data, seperti pengesanan perisian tebusan, penyulitan data, syot kilat keselamatan dan ciri pemulihan kuarantin AirGap.
Perlu diingat bahawa industri telah pun meneroka dan cuba meningkatkan storan secara menyeluruh sebagai tindak balas kepada peningkatan model AI yang besar. Melalui produk semua denyar berkualiti tinggi, Huawei Storage menyepadukan teknologi storan termaju dan keupayaan keselamatan terbina dalam untuk mencapai kesesuaian rapat antara inovasi storan dan pembangunan AI, dan bekerjasama antara satu sama lain.
Secara keseluruhannya, pembangunan industri storan dan kemajuan kapasiti storan China adalah sangat penting kepada pelaksanaan model AI berskala besar dan juga peningkatan pintar beribu-ribu industri. Tanpa pembangunan storan, banjir data yang dibawa oleh AI akan sukar untuk diselesaikan dengan betul teknologi AI bahkan mungkin menjadi pokok tanpa akar kerana kekurangan sokongan data.
Peluang dan tanggungjawab era pintar kebetulan berhadapan dengan industri penyimpanan pada masa yang sama. Dengan penerokaan berterusan jenama cemerlang seperti Huawei, storan China menghadapi peluang yang tidak pernah berlaku sebelum ini dan juga memikul tanggungjawab yang diberikan mengikut zaman.
Ramai pakar industri percaya bahawa model bahasa besar adalah "detik iPhone" dalam sejarah AI Kemudian gelombang peningkatan storan yang dibawa oleh teknologi AI juga mungkin menjadi detik penting dalam industri storan China dan permulaan kepada keemasan. umur.
Atas ialah kandungan terperinci AI sedang berkembang pesat, dan kita perlu menjadi perintis untuk menyelamatkan kekuatan kita. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!