


Perkembangan era model besar AI memerlukan teknologi storan canggih untuk mencapai kemajuan yang stabil
Disiplin kecerdasan buatan bermula pada tahun 1956, dan kemudian hampir tiada kemajuan dalam separuh abad berikutnya Perkembangan kuasa pengkomputeran dan data ketinggalan jauh daripada algoritma. Walau bagaimanapun, dengan kemunculan era Internet pada tahun 2000, had kuasa pengkomputeran telah dipecahkan, kecerdasan buatan secara beransur-ansur menembusi semua lapisan masyarakat, dan membawa kepada era model berskala besar. Walau bagaimanapun, data berkualiti tinggi nampaknya telah menjadi "bottleneck" terakhir dalam pembangunan kecerdasan buatan
Huawei OceanStor Pacific memenangi "Anugerah Inovasi Terbaik untuk Pangkalan Penyimpanan AI" pada Persidangan Tahunan Akademik Pengkomputeran Prestasi Tinggi Kebangsaan yang diadakan baru-baru ini (CCF HPC China 2 perlu ditulis semula sebagai: 023)
Kemunculan konsep pengekalan AI sebenarnya mencerminkan peningkatan berterusan nilai data untuk AI
Kandungan yang perlu ditulis semula ialah: 01
Data menentukan tahap kecerdasan kecerdasan buatan
Pembangunan kecerdasan buatan ialah proses pengumpulan dan analisis data yang berterusan. Data, sebagai pembawa maklumat, adalah asas untuk kecerdasan buatan untuk belajar dan memahami dunia. Kecerdasan am ialah matlamat utama pembangunan kecerdasan buatan Ia boleh belajar, memahami, menaakul dan menyelesaikan masalah secara autonomi, dan data merupakan daya penggerak terbesar untuk pembangunannya
Jadi, semakin banyak data, semakin pintar AI? Selagi terdapat sejumlah besar data, bolehkah AI mengatasi peranan pakar?
Ambil sistem kecerdasan buatan dalam bidang perubatan sebagai contoh Banyak kes diagnostik sebenarnya tidak mempunyai satu jawapan yang betul. Dalam diagnosis perubatan, setiap set simptom mempunyai pelbagai kemungkinan punca dengan kebarangkalian yang berbeza-beza, jadi pembuatan keputusan yang dibantu AI boleh membantu doktor mengecilkan kemungkinan punca sehingga penyelesaian ditemui. Dalam kes ini, kecerdasan buatan perubatan tidak bergantung pada jumlah data yang besar, tetapi pada data yang tepat dan berkualiti tinggi Hanya dengan cara ini ia dapat memastikan punca sebenar yang mungkin tidak terlepas semasa "penyaringan"
Kepentingan kualiti data untuk kecerdasan AI ditunjukkan dalam demonstrasi biasa ini
Dalam industri kecerdasan buatan, sentiasa ada konsensus bahawa "sampah masuk, sampah keluar". Ini bermakna tanpa input data berkualiti tinggi, tidak kira betapa majunya algoritma atau betapa kuatnya kuasa pengkomputeran, ia tidak akan dapat menghasilkan hasil yang berkualiti tinggi
Pada zaman ini, kita berada di puncak model besar. Model besar kecerdasan buatan bermunculan seperti cendawan selepas hujan. Sebilangan model besar di China, seperti Huawei's Pangu, iFlytek's Spark, dan Zidong's Taichu, sedang membangun dengan pesat dan komited untuk membina platform keupayaan kecerdasan buatan sejagat merentas industri untuk menyediakan kuasa bagi transformasi digital semua lapisan masyarakat
Menurut "Laporan Penyelidikan Peta Model Besar Kecerdasan Buatan China" yang dikeluarkan oleh Pusat Penyelidikan Pembangunan Kecerdasan Buatan Generasi Baharu Kementerian Sains dan Teknologi China pada akhir Mei, 79 model besar dengan skala lebih daripada satu bilion parameter telah dikeluarkan di China. Walaupun corak "Battle of 100 Models" telah dibentuk, ia juga telah mencetuskan pemikiran yang mendalam tentang pembangunan model besar
Keupayaan ekspresif model berdasarkan data berskala kecil dihadkan oleh saiz data dan hanya boleh melakukan simulasi dan ramalan berbutir kasar Ia tidak lagi terpakai dalam situasi di mana keperluan ketepatan agak tinggi. Jika anda ingin meningkatkan lagi ketepatan model, anda perlu menggunakan data besar-besaran untuk menjana model yang berkaitan
Kandungan yang ditulis semula ialah: Ini bermakna jumlah data menentukan tahap kecerdasan AI. Tanpa mengira kualiti data, kuantiti data adalah bidang tumpuan yang perlu difokuskan untuk membina "kapasiti storan AI"
Apa yang perlu ditulis semula ialah: 02
Dalam era data besar, cabaran yang dihadapi oleh data
Apabila kecerdasan buatan berkembang ke arah model besar dan pelbagai mod, perusahaan menghadapi banyak cabaran apabila membangunkan atau melaksanakan aplikasi model besar
Pertama sekali, kitaran prapemprosesan data adalah sangat panjang. Memandangkan data diedarkan di pusat data yang berbeza, aplikasi yang berbeza dan sistem yang berbeza, terdapat masalah seperti kelajuan pengumpulan yang perlahan Akibatnya, ia mengambil masa kira-kira 10 hari untuk mempraproses 100 TB penggunaan sistem perlu dipertingkatkan permulaan.
Kedua, masalah kecekapan pemuatan set latihan yang rendah perlu diselesaikan. Pada masa kini, skala model berskala besar semakin besar, dengan tahap parameter mencecah ratusan bilion atau bahkan trilion Proses latihan memerlukan sejumlah besar sumber pengkomputeran dan ruang penyimpanan. Sebagai contoh, model berskala besar berbilang modal menggunakan teks dan imej besar-besaran sebagai set latihan, tetapi kelajuan pemuatan semasa fail kecil besar adalah perlahan, mengakibatkan pemuatan set latihan yang tidak cekap
Selain itu, ia juga menghadapi cabaran penalaan kerap parameter model besar dan platform latihan yang tidak stabil, dengan gangguan latihan berlaku secara purata setiap dua hari. Untuk meneruskan latihan, mekanisme pusat pemeriksaan perlu digunakan, dan masa untuk pulih daripada kegagalan melebihi satu hari, yang membawa banyak cabaran kepada kesinambungan perniagaan
Untuk berjaya dalam era model besar AI, kita perlu memberi perhatian kepada kualiti dan kuantiti data serta membina infrastruktur storan berprestasi tinggi berkapasiti besar. Ini telah menjadi elemen utama kepada kemenangan
Kandungan yang perlu ditulis semula ialah: 03
Kunci era AI adalah pangkalan storan kuasa
Dengan gabungan data besar, kecerdasan buatan dan teknologi lain dengan pengkomputeran berprestasi tinggi, analisis data berprestasi tinggi (HPDA) telah menjadi satu bentuk baharu untuk merealisasikan nilai data. Dengan menggunakan lebih banyak data sejarah, pelbagai kuasa pengkomputeran heterogen dan kaedah analisis, HPDA boleh meningkatkan ketepatan analisis. Ini menandakan peringkat baharu penyelidikan pintar dalam penyelidikan saintifik, dan teknologi kecerdasan buatan akan mempercepatkan penerapan hasil termaju
Hari ini, paradigma baharu berasaskan "sains intensif data" sedang muncul dalam bidang penyelidikan saintifik. Paradigma ini lebih menumpukan pada menggabungkan perlombongan pengetahuan data besar dan latihan kecerdasan buatan serta teknologi penaakulan untuk mendapatkan pengetahuan dan penemuan baharu melalui pengiraan dan analisis. Ini juga bermakna bahawa keperluan untuk infrastruktur data asas akan berubah secara asasnya. Sama ada pengkomputeran berprestasi tinggi atau pembangunan kecerdasan buatan masa hadapan, infrastruktur storan lanjutan perlu diwujudkan untuk menangani cabaran data
Untuk menyelesaikan cabaran data, kita perlu bermula dengan inovasi penyimpanan data Bak kata pepatah, orang yang membuka loceng mesti mengikat loceng
Pangkalan storan AI dibangunkan berdasarkan storan teragih OceanStor Pacific dan mematuhi konsep reka bentuk Asli AI untuk memenuhi keperluan storan semua aspek AI. Sistem AI menimbulkan cabaran menyeluruh kepada storan, termasuk pecutan pengkomputeran data, pengurusan storan data, dan peredaran yang cekap antara penyimpanan data dan pengkomputeran. Dengan menggunakan gabungan "storan berkapasiti besar + storan berprestasi tinggi", kami dapat memastikan penjadualan dan penyelarasan sumber storan yang konsisten, supaya setiap pautan dapat beroperasi dengan cekap, dengan itu mengeluarkan sepenuhnya nilai sistem AI
Bagaimanakah storan yang diedarkan OceanStor Pacific menunjukkan keupayaan terasnya?
Pertama sekali, seni bina teknikal adalah unik dalam industri. Sistem storan ini menyokong pengembangan mendatar tanpa had dan boleh mengendalikan beban bercampur dengan cekap mengendalikan IOPS fail kecil dan lebar jalur membaca dan menulis fail besar dengan cekap. Ia mempunyai fungsi aliran data hierarki pintar pada lapisan prestasi dan lapisan kapasiti, dan boleh merealisasikan pengurusan data AI proses penuh seperti pengumpulan, prapemprosesan, latihan dan inferens data besar-besaran. Selain itu, ia mempunyai keupayaan analisis data yang sama seperti HPC dan data besar
Kandungan yang ditulis semula ialah: Kedua, cara terbaik untuk meningkatkan kecekapan dalam industri adalah melalui inovasi storan. Yang pertama ialah tenunan data, yang bermaksud mengakses data mentah yang bertaburan di wilayah yang berbeza melalui sistem fail global GFS untuk mencapai paparan dan penjadualan data bersatu global merentas sistem, wilayah dan awan berbilang, memudahkan proses pengumpulan data. Yang kedua ialah pengkomputeran memori dekat, yang merealisasikan prapemprosesan data dekat dengan menyimpan kuasa pengkomputeran terbenam, mengurangkan penghantaran data tidak sah dan mengurangkan masa menunggu pelayan prapemprosesan, sekali gus meningkatkan kecekapan prapemprosesan dengan ketara
Malah, "Pertempuran Ratusan Model" bukanlah "tanda" pembangunan model AI yang besar. Pada masa hadapan, semua lapisan masyarakat akan menggunakan keupayaan model besar AI untuk mempromosikan pembangunan transformasi digital yang mendalam, dan pembinaan infrastruktur data juga akan dipercepatkan. OceanStor Pacific mengedarkan inovasi storan dalam seni bina teknologi dan kecekapan tinggi telah membuktikan dirinya sebagai pilihan pertama industri
Kami faham bahawa data telah menjadi faktor pengeluaran baharu bersama tanah, buruh, modal dan teknologi. Banyak definisi tradisional dan model operasi dalam pasaran digital masa lalu akan ditulis semula. Hanya dengan keupayaan sedia ada kami boleh memastikan kemajuan mantap era model besar kecerdasan buatan dipacu data
Atas ialah kandungan terperinci Perkembangan era model besar AI memerlukan teknologi storan canggih untuk mencapai kemajuan yang stabil. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kebakaran ChatGPT telah menyebabkan satu lagi gelombang kegilaan AI Walau bagaimanapun, industri secara amnya percaya bahawa apabila AI memasuki era model besar, hanya syarikat besar dan syarikat super kaya yang mampu membeli AI, kerana penciptaan model AI yang besar adalah sangat mahal. . Yang pertama ialah ia mahal dari segi pengiraan. Avi Goldfarb, seorang profesor pemasaran di Universiti Toronto, berkata: "Jika anda ingin memulakan sebuah syarikat, membangunkan sendiri model bahasa yang besar, dan mengira sendiri, kosnya terlalu tinggi. OpenAI sangat mahal, menelan belanja berbilion dolar ." Pengkomputeran sewa pastinya Ia jauh lebih murah, tetapi syarikat masih perlu membayar yuran mahal kepada AWS dan syarikat lain. Kedua, data mahal. Model latihan memerlukan sejumlah besar data, kadangkala data itu tersedia dan kadangkala tidak. Data seperti CommonCrawl dan LAION boleh menjadi percuma

Dalam beberapa tahun kebelakangan ini, dengan kemunculan model teknologi baharu, penggilapan nilai senario aplikasi dalam pelbagai industri dan peningkatan kesan produk akibat pengumpulan data besar-besaran, aplikasi kecerdasan buatan telah dipancarkan dari bidang seperti penggunaan dan Internet. kepada industri tradisional seperti pembuatan, tenaga, dan elektrik. Kematangan teknologi kecerdasan buatan dan aplikasi dalam perusahaan dalam pelbagai industri dalam pautan utama aktiviti pengeluaran ekonomi seperti reka bentuk, perolehan, pengeluaran, pengurusan, dan jualan sentiasa bertambah baik, mempercepatkan pelaksanaan dan liputan kecerdasan buatan dalam semua pautan, dan secara beransur-ansur mengintegrasikannya dengan perniagaan utama, untuk meningkatkan status perindustrian atau mengoptimumkan kecekapan operasi, dan mengembangkan lagi kelebihannya sendiri. Pelaksanaan berskala besar aplikasi inovatif teknologi kecerdasan buatan telah menggalakkan pembangunan pesat pasaran risikan data besar, dan juga menyuntik daya hidup pasaran ke dalam perkhidmatan tadbir urus data asas. Dengan data besar, pengkomputeran awan dan pengkomputeran

Model besar AI merujuk kepada model kecerdasan buatan yang dilatih menggunakan data berskala besar dan kuasa pengkomputeran yang berkuasa. Model ini biasanya mempunyai tahap ketepatan dan keupayaan generalisasi yang tinggi dan boleh digunakan pada pelbagai bidang seperti pemprosesan bahasa semula jadi, pengecaman imej, pengecaman pertuturan, dsb. Latihan model AI yang besar memerlukan sejumlah besar data dan sumber pengkomputeran, dan biasanya perlu menggunakan rangka kerja pengkomputeran teragih untuk mempercepatkan proses latihan. Proses latihan model ini sangat kompleks dan memerlukan penyelidikan mendalam dan pengoptimuman pengedaran data, pemilihan ciri, struktur model, dsb. Model besar AI mempunyai pelbagai aplikasi dan boleh digunakan dalam pelbagai senario, seperti perkhidmatan pelanggan pintar, rumah pintar, pemanduan autonomi, dsb. Dalam aplikasi ini, model besar AI boleh membantu orang ramai menyelesaikan pelbagai tugas dengan lebih cepat dan tepat, serta meningkatkan kecekapan kerja.

Generatif AI (AIGC) telah membuka era baharu kecerdasan buatan umum Persaingan di sekitar model besar telah menjadi hebat Infrastruktur pengkomputeran adalah tumpuan utama persaingan, dan kebangkitan kuasa semakin menjadi konsensus industri. Dalam era baharu, model besar bergerak daripada mod tunggal kepada pelbagai mod, saiz parameter dan set data latihan berkembang dengan pesat, dan data tidak berstruktur yang besar memerlukan sokongan keupayaan beban campuran berprestasi tinggi pada masa yang sama; intensif data Paradigma baharu semakin popular, dan senario aplikasi seperti pengkomputeran super dan pengkomputeran berprestasi tinggi (HPC) sedang bergerak secara mendalam Pangkalan storan data sedia ada tidak lagi dapat memenuhi keperluan yang sentiasa dinaik taraf. Jika kuasa pengkomputeran, algoritma dan data adalah "troika" yang memacu pembangunan kecerdasan buatan, maka dalam konteks perubahan besar dalam persekitaran luaran, ketiga-tiganya perlu segera mendapatkan semula dinamik.

Vivo mengeluarkan matriks model besar kecerdasan buatan am yang dibangunkan sendiri - Model Blue Heart pada Persidangan Pembangun 2023 pada 1 November. Vivo mengumumkan bahawa Model Blue Heart akan melancarkan 5 model dengan tahap parameter yang berbeza, masing-masing Ia mengandungi tiga tahap parameter : bilion, berpuluh bilion, dan ratusan bilion, meliputi senario teras, dan keupayaan modelnya berada di kedudukan utama dalam industri. Vivo percaya bahawa model besar yang dibangunkan sendiri yang baik perlu memenuhi lima keperluan berikut: skala besar, fungsi komprehensif, algoritma berkuasa, selamat dan boleh dipercayai, evolusi bebas, dan haruslah sumber terbuka secara meluas Kandungan yang ditulis semula adalah seperti berikut: Antaranya , yang pertama ialah model hati biru Model 7B, ini ialah model peringkat 7 bilion yang direka untuk menyediakan perkhidmatan dwi untuk telefon mudah alih dan awan. Vivo berkata bahawa model ini boleh digunakan dalam bidang seperti pemahaman bahasa dan penciptaan teks.

Baru-baru ini, satu pasukan saintis komputer membangunkan model pembelajaran mesin yang lebih fleksibel dan berdaya tahan dengan keupayaan untuk melupakan maklumat yang diketahui secara berkala, ciri yang tidak terdapat dalam model bahasa berskala besar sedia ada. Pengukuran sebenar menunjukkan bahawa dalam banyak kes, "kaedah melupakan" sangat cekap dalam latihan, dan model melupakan akan berprestasi lebih baik. Jea Kwon, seorang jurutera AI di Institut Sains Asas di Korea, berkata penyelidikan baharu itu bermakna kemajuan ketara dalam bidang AI. Kecekapan latihan "kaedah melupakan" adalah sangat tinggi Kebanyakan enjin bahasa AI arus perdana menggunakan teknologi rangkaian saraf tiruan. Setiap "neuron" dalam struktur rangkaian ini sebenarnya adalah fungsi matematik Mereka disambungkan antara satu sama lain untuk menerima dan menghantar maklumat.

Sejak kebelakangan ini, kecerdasan buatan sekali lagi menjadi tumpuan inovasi manusia, dan persaingan senjata di sekitar AI telah menjadi lebih sengit berbanding sebelum ini. Bukan sahaja gergasi teknologi berkumpul untuk menyertai pertempuran model besar kerana takut terlepas trend baharu, malah Beijing, Shanghai, Shenzhen dan tempat lain juga telah memperkenalkan dasar dan langkah untuk menjalankan penyelidikan tentang algoritma dan kunci inovasi model besar. teknologi untuk mewujudkan tanah tinggi untuk inovasi kecerdasan buatan. Model besar AI sedang berkembang pesat, dan gergasi teknologi utama telah menyertainya. Baru-baru ini, "Laporan Penyelidikan Peta Model Besar Kecerdasan Buatan China" yang dikeluarkan di Forum Zhongguancun 2023 menunjukkan bahawa model besar kecerdasan buatan China menunjukkan trend pembangunan yang berkembang pesat, dan terdapat banyak syarikat dalam industri model besar yang berpengaruh. Robin Li, pengasas, pengerusi dan Ketua Pegawai Eksekutif Baidu, berkata dengan terus terang bahawa kami berada di titik permulaan yang baharu

Pada tahun 1978, Stuart Marson dan yang lain dari University of California menubuhkan syarikat komersial CADD pertama di dunia dan mempelopori pembangunan tindak balas kimia dan sistem perolehan pangkalan data. Sejak itu, reka bentuk ubat bantuan komputer (CADD) telah memasuki era pembangunan pesat dan telah menjadi salah satu cara penting bagi syarikat farmaseutikal untuk menjalankan penyelidikan dan pembangunan ubat, membawa peningkatan revolusioner kepada bidang ini. Pada 5 Oktober 1981, majalah Fortune menerbitkan artikel muka depan bertajuk "The Next Industrial Revolution: Merck Designs Drugs Through Computers," secara rasmi mengumumkan kemunculan teknologi CADD. Pada tahun 1996, perencat karbonik anhidrase pertama yang dibangunkan berdasarkan SBDD (reka bentuk ubat berasaskan struktur) telah berjaya dilancarkan di pasaran telah digunakan secara meluas dalam penyelidikan dan pembangunan ubat.
