Perkakasan komputer telah menjadi pasaran yang tidak aktif selama bertahun-tahun. Seni bina mikropemproses x86 yang dominan telah mencapai had peningkatan prestasi yang boleh dicapai melalui pengecilan, jadi pengeluar tertumpu terutamanya pada pembungkusan lebih banyak teras ke dalam cip.
Untuk perkembangan pesat pembelajaran mesin dan pembelajaran mendalam, GPU adalah penyelamat. Pada asalnya direka untuk pemprosesan grafik, GPU boleh mempunyai beribu-ribu teras kecil, menjadikannya sesuai untuk keupayaan pemprosesan selari yang diperlukan untuk latihan AI.
Intipati kecerdasan buatan ialah ia mendapat manfaat daripada pemprosesan selari, dan kira-kira 10 tahun lalu didapati bahawa GPU, yang direka untuk memaparkan piksel pada skrin, sesuai untuk ini kerana ia adalah enjin pemprosesan selari yang boleh Masukkan banyak teras.
Itu berita baik untuk Nvidia, yang menyaksikan permodalan pasarannya melonjak daripada kurang daripada $18 bilion pada 2015 kepada $735 bilion sebelum pasaran menguncup tahun lepas. Sehingga baru-baru ini, syarikat itu mempunyai hampir keseluruhan pasaran untuk dirinya sendiri. Tetapi ramai pesaing cuba mengubahnya.
Mengenai beban kerja AI, ia merupakan GPU Nvidia setakat ini, tetapi pengguna sedang mencari teknologi yang boleh membawanya ke tahap seterusnya, dan apabila pengkomputeran berprestasi tinggi dan beban kerja AI terus bertumpu, kami Kami akan melihat pelbagai jenis pemecut muncul.
Pengeluar cip besar tidak berdiam diri. Tiga tahun lalu, Intel memperoleh pembuat cip Israel Havana Labs dan menjadikan syarikat itu tumpuan usaha pembangunan kecerdasan buatannya.
Pemproses pengoptimuman latihan Gaudi2 dan pemproses inferens Greco yang dilancarkan oleh Havana musim bunga lalu dikatakan sekurang-kurangnya dua kali lebih pantas daripada pemproses utama Nvidia A100.
Pada bulan Mac tahun ini, Nvidia melancarkan GPU pemecut H100 dengan 80 bilion transistor dan sokongan untuk interkoneksi NVLink berkelajuan tinggi syarikat. Ia menampilkan enjin khusus yang boleh mempercepatkan pelaksanaan model berasaskan Transformer yang digunakan dalam pemprosesan bahasa semula jadi sebanyak enam kali berbanding generasi sebelumnya. Ujian terkini menggunakan penanda aras MLPerf menunjukkan bahawa H100 mengatasi Gaudi2 dalam kebanyakan ujian pembelajaran mendalam. Nvidia juga dilihat mempunyai kelebihan dalam susunan perisiannya.
Ramai pengguna memilih GPU kerana mereka boleh memasuki ekosistem perisian terpusat Sebab mengapa Nvidia begitu berjaya adalah kerana mereka telah menetapkan strategi ekosistem.
Syarikat pengkomputeran awan skala besar telah memasuki bidang ini lebih awal daripada pengeluar cip. Unit pemprosesan Tensor Google LLC ialah litar bersepadu khusus aplikasi yang dilancarkan pada 2016 dan kini berada dalam generasi keempatnya. Perkhidmatan Web Amazon melancarkan pemecut pemprosesan inferensnya untuk pembelajaran mesin pada 2018, mendakwa ia menawarkan lebih daripada dua kali ganda prestasi kejadian dipercepatkan GPU.
Bulan lalu, syarikat itu mengumumkan ketersediaan am contoh awan berdasarkan cip Trainiumnya, dengan mengatakan bahawa dalam senario latihan model pembelajaran mendalam, dengan prestasi yang setanding, kosnya lebih rendah daripada EC2 GPU. 50% lebih rendah. Usaha kedua-dua syarikat tertumpu terutamanya pada penyampaian melalui perkhidmatan awan.
Sementara peneraju pasaran yang mantap menumpukan pada peningkatan tambahan, banyak inovasi yang lebih menarik sedang berlaku dalam kalangan pemula yang membina perkakasan khusus AI. Pemodal teroka menarik sebahagian besar daripada $1.8 bilion yang dilaburkan dalam permulaan cip tahun lepas, lebih daripada dua kali ganda jumlah pada 2017, menurut data.
Mereka mengejar pasaran yang boleh membawa keuntungan besar Pasaran cip kecerdasan buatan global dijangka berkembang daripada AS$8 bilion pada 2020 kepada hampir AS$195 bilion menjelang 2030.
Beberapa syarikat pemula ingin menggantikan CPU x86, tetapi itu adalah kerana leverage untuk melakukannya Agak kecil. Cip bukan lagi halangan, komunikasi antara cip yang berbeza adalah halangan yang besar.
CPU melaksanakan operasi peringkat rendah seperti mengurus fail dan memberikan tugasan, tetapi pendekatan khusus CPU semata-mata tidak lagi sesuai untuk sambungan dan CPU direka untuk segala-galanya daripada pembukaan fail untuk menguruskan cache memori Aktiviti mestilah universal. Ini bermakna ia tidak sesuai untuk operasi aritmetik matriks selari besar-besaran yang diperlukan untuk latihan model AI.
Kebanyakan aktiviti dalam pasaran berkisar pada pemecut pemproses bersama, litar bersepadu khusus aplikasi dan pada tahap yang lebih rendah tatasusunan get boleh atur medan yang boleh diperhalusi untuk kegunaan tertentu.
Semua orang mengikuti barisan Google dalam membangunkan pemproses bersama, yang berfungsi bersama-sama dengan CPU, dengan mengekod keras algoritma ke dalam pemproses dan bukannya menjalankannya sebagai bahagian khusus AI beban kerja.
Persamaan pecutan digunakan untuk membangunkan apa yang dipanggil pemproses aliran grafik untuk senario pengkomputeran tepi seperti kereta pandu sendiri dan pengawasan video. Chipset boleh atur cara sepenuhnya menggunakan banyak fungsi CPU tetapi dioptimumkan untuk keselarian peringkat tugasan dan pemprosesan pelaksanaan penstriman, menggunakan hanya 7 watt kuasa.
Seni bina adalah berdasarkan struktur data graf, di mana perhubungan antara objek diwakili sebagai nod dan tepi yang bersambung. Setiap rangka kerja pembelajaran mesin menggunakan konsep graf, mengekalkan semantik yang sama sepanjang reka bentuk cip. Keseluruhan graf termasuk CMM tetapi mengandungi nod tersuai boleh dilaksanakan. Kita boleh mempercepatkan apa-apa yang selari dalam graf ini.
Seni bina berasaskan grafiknya menyelesaikan beberapa had kapasiti GPU dan CPU dan boleh menyesuaikan diri dengan lebih fleksibel kepada pelbagai jenis tugas AI. Ia juga membolehkan pembangun memindahkan lebih banyak pemprosesan ke tepi untuk inferens yang lebih baik. Jika syarikat boleh pra-memproses 80% daripada pemprosesan, mereka boleh menjimatkan banyak masa dan kos.
Aplikasi ini boleh membawa risikan lebih dekat kepada data dan membolehkan pembuatan keputusan yang pantas. Matlamat kebanyakannya ialah inferens, iaitu penggunaan medan model AI, dan bukannya tugas latihan yang lebih intensif secara pengiraan.
Sebuah syarikat sedang membangunkan cip yang menggunakan pengkomputeran dalam memori untuk mengurangkan kependaman dan keperluan untuk peranti storan luaran. Platform kecerdasan buatannya akan memberikan fleksibiliti dan keupayaan untuk menjalankan pelbagai rangkaian saraf sambil mengekalkan ketepatan yang tinggi.
Siri unit pemprosesan datanya ialah tatasusunan pemproses selari besar-besaran dengan pemproses 80 teras berskala yang boleh melaksanakan berpuluh-puluh tugas secara selari. Inovasi utama ialah integrasi ketat coprocessor tensor di dalam setiap elemen pemprosesan dan sokongan untuk pertukaran data tensor langsung antara elemen untuk mengelakkan kesesakan jalur lebar memori. Ini membolehkan pecutan aplikasi AI yang cekap kerana pra dan pasca pemprosesan dilakukan pada elemen pemprosesan yang sama.
Walaupun sesetengah syarikat menumpukan pada menyimpulkan model pembelajaran mendalam menggunakan set cip bersaiz kecil, syarikat itu mendakwa bahawa set cip itu boleh melakukan 26 trilion operasi sesaat sambil menggunakan lebih sedikit kuasa kepada 3 watt. Sebahagiannya, ia dicapai dengan memecahkan setiap lapisan rangkaian yang digunakan untuk melatih model pembelajaran mendalam ke dalam elemen pengkomputeran yang diperlukan dan menyepadukannya pada cip yang dibina khusus untuk pembelajaran mendalam.
Penggunaan memori onboard terus mengurangkan overhead Keseluruhan rangkaian berada di dalam cip dan tiada memori luaran, yang bermaksud cip boleh menjadi lebih kecil dan menggunakan lebih sedikit tenaga. Cip boleh menjalankan model pembelajaran mendalam pada imej definisi tinggi hampir masa nyata, membolehkan satu peranti menjalankan pengecaman plat lesen automatik pada empat lorong secara serentak.
Sesetengah syarikat pemula lebih menggunakan pendekatan moonshot, bertujuan untuk mentakrifkan semula latihan model AI dan keseluruhan platform yang dijalankannya pada.
Sebagai contoh, pemproses AI yang dioptimumkan untuk pembelajaran mesin boleh mengurus sehingga 3.5 juta sesaat dengan hampir 9,000 utas serentak dan 900 megabait memori dalam pemproses bilion operasi pemprosesan. Sistem pengkomputeran bersepadu itu dipanggil mesin Bow-2000IPU dan dikatakan mampu melakukan 1.4 petaflops operasi sesaat.
Apa yang membezakannya ialah reka bentuk cip bertindan tiga dimensi, yang membolehkannya membungkus hampir 1,500 teras pemprosesan selari dalam satu cip. Semua perniagaan ini mampu menjalankan perniagaan yang sama sekali berbeza. Ini berbeza daripada seni bina GPU yang digunakan secara meluas, yang lebih suka menjalankan operasi yang sama pada blok data yang besar.
Sebagai contoh lain, beberapa syarikat sedang menyelesaikan masalah interconnection, iaitu pendawaian antara komponen yang disambungkan dalam litar bersepadu. Apabila pemproses mencapai kelajuan maksimum teoretikal mereka, laluan untuk menggerakkan bit menjadi semakin hambatan, terutamanya apabila berbilang pemproses mengakses memori secara serentak.
Cip menggunakan pandu gelombang nanofotonik dalam platform kecerdasan buatan yang dikatakan menggabungkan kelajuan tinggi dan lebar jalur yang besar dalam pakej tenaga rendah. Ia pada asasnya ialah lapisan komunikasi optik yang boleh menyambungkan berbilang pemproses dan pemecut lain.
Kualiti hasil AI datang daripada keupayaan untuk menyokong model yang sangat besar dan kompleks secara serentak sambil mencapai respons daya pemprosesan yang sangat tinggi, yang kedua-duanya boleh dicapai. Ini terpakai kepada apa sahaja yang boleh dilakukan menggunakan algebra linear, termasuk kebanyakan aplikasi kecerdasan buatan.
Harapan untuk platform perkakasan dan perisian bersepadunya amat tinggi. Perusahaan telah mengambil kira perkara ini, seperti platform R&D yang boleh menjalankan kecerdasan buatan dan aplikasi intensif data lain di mana-mana sahaja dari pusat data hingga ke tepi.
Platform perkakasan menggunakan cip 7nm tersuai yang direka untuk mesin dan pembelajaran mendalam. Seni bina aliran datanya yang boleh dikonfigurasikan semula menjalankan tindanan perisian yang dioptimumkan AI, dan seni bina perkakasannya direka untuk meminimumkan akses memori, dengan itu mengurangkan kesesakan antara sambungan.
Pemproses boleh dikonfigurasikan semula untuk menyesuaikan diri dengan AI atau beban kerja HPC pengkomputeran berprestasi tinggi Pemproses direka untuk mengendalikan operasi matriks berskala besar pada tahap prestasi yang lebih tinggi, yang sesuai untuk Tambahan untuk pelanggan dengan beban kerja yang berubah-ubah.
Walaupun CPU, GPU dan juga FPGA sangat sesuai untuk perisian penentu seperti sistem transaksi dan ERP, algoritma pembelajaran mesin adalah kebarangkalian, yang bermaksud bahawa keputusannya tidak diketahui terlebih dahulu memerlukan infrastruktur perkakasan yang sama sekali berbeza.
Platform ini meminimumkan isu saling sambung dengan menyambungkan 1TB memori segerak kadar data berganda berkelajuan tinggi kepada pemproses, pada asasnya menutupinya dengan memori pada cip 20x lebih pantas Kependaman pengawal DDR, jadi ini telus kepada pengguna, membolehkan kami melatih model bahasa kiraan parameter yang lebih tinggi dan imej resolusi tertinggi tanpa jubin atau pensampelan rendah.
Jubin ialah teknik yang digunakan untuk analisis imej yang mengurangkan permintaan terhadap kuasa pengkomputeran dengan membahagikan imej kepada ketulan yang lebih kecil, menganalisis setiap bongkah, dan kemudian menggabungkannya semula. Pensampelan bawah melatih model pada subset rawak data latihan untuk menjimatkan masa dan sumber pengkomputeran. Hasilnya ialah sistem yang bukan sahaja lebih pantas daripada sistem berasaskan GPU, tetapi juga mampu menyelesaikan masalah yang lebih besar.
Dengan banyak perniagaan yang mencari penyelesaian untuk masalah yang sama, rombakan tidak dapat dielakkan, tetapi tiada siapa yang menjangkakan goncangan ini akan datang tidak lama lagi . GPU akan wujud untuk masa yang lama dan mungkin akan kekal sebagai penyelesaian paling kos efektif untuk latihan AI dan projek inferens yang tidak memerlukan prestasi melampau.
Walau bagaimanapun, apabila model dalam pasaran mewah menjadi lebih besar dan lebih kompleks, terdapat peningkatan keperluan untuk seni bina khusus dari segi fungsi. Tiga hingga lima tahun dari sekarang, kita mungkin akan melihat percambahan GPU dan pemecut AI, yang merupakan satu-satunya cara yang boleh kita skalakan untuk memenuhi permintaan pada penghujung dekad ini dan seterusnya.
Pengeluar cip terkemuka dijangka terus melakukan perkara yang mereka lakukan dengan baik dan secara beransur-ansur membina teknologi sedia ada. Banyak syarikat juga akan mengikuti petunjuk Intel dan memperoleh syarikat pemula yang tertumpu pada kecerdasan buatan. Komuniti pengkomputeran berprestasi tinggi juga menumpukan pada potensi kecerdasan buatan untuk membantu menyelesaikan masalah klasik seperti simulasi berskala besar dan pemodelan iklim.
Ekosistem pengkomputeran berprestasi tinggi sentiasa mencari teknologi baharu yang boleh mereka serap untuk kekal mendahului keluk dan mereka meneroka perkara yang boleh dibawa oleh kecerdasan buatan. Bersembunyi di sebalik tabir ialah pengkomputeran kuantum, teknologi yang kekal lebih teori daripada praktikal tetapi berpotensi untuk merevolusikan pengkomputeran.
Tidak kira seni bina baharu mana yang mendapat daya tarikan, lonjakan dalam kecerdasan buatan sudah pasti mencetuskan semula minat terhadap potensi inovasi perkakasan untuk membuka sempadan baharu dalam perisian.
Atas ialah kandungan terperinci Bagaimana kecerdasan buatan boleh menjadikan perkakasan berkembang dengan lebih baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!