Ant Group baru-baru ini mengumumkan pelancaran perpustakaan sambungan pecutan latihan teragih model besar yang dipanggil ATorch, yang merupakan alat sumber terbuka. Matlamat ATorch adalah untuk membantu meningkatkan kecerdasan pembelajaran mendalam melalui pengoptimuman dinamik sumber automatik dan peningkatan kestabilan latihan yang diedarkan. Difahamkan bahawa dalam latihan model besar, ATorch boleh meningkatkan kadar penggunaan kuasa pengkomputeran latihan tahap kilokalori ratusan bilion model kepada 60%, yang bersamaan dengan menambah enjin berkuasa pada kereta sport. Ini akan menjadi alat penting untuk penyelidik dan pembangun pembelajaran mendalam untuk membantu mereka melatih dan mengoptimumkan model besar dengan lebih cekap.
Dengan letupan model besar generatif, skala set data dan parameter untuk latihan model telah meningkat secara eksponen. Untuk memenuhi keperluan latihan raksasa ini dan untuk mengulang model dengan cepat, latihan yang diedarkan telah menjadi salah satu penyelesaian. Dalam bidang ini, rangka kerja pembelajaran mendalam seperti PyTorch dan TensorFlow digunakan secara meluas untuk pembinaan dan latihan model. Untuk menyesuaikan diri dengan lebih baik kepada latihan model besar, beberapa usaha telah dijalankan dalam industri, salah satunya ialah kit alat ATorch sumber terbuka Ant. ATorch menyediakan rangka kerja pembelajaran mendalam seperti PyTorch dengan fungsi dan alatan yang lebih sesuai untuk latihan model besar, membantu pembangun dan penyelidik menyelesaikan tugas latihan model dengan lebih cekap. Sumber terbuka kit alat ini akan menggalakkan lagi pembangunan latihan model besar dan membawa lebih banyak peluang dan cabaran kepada bidang penyelidikan dan aplikasi.
Adalah difahamkan bahawa ATorch menggunakan reka bentuk seni bina berlapis dengan fungsi yang jelas dan reka bentuk yang komprehensif, yang boleh memberikan pembangun pengalaman pembangunan yang sangat diperkemas dan jaminan kestabilan terkemuka. Ia terutamanya merangkumi fungsi teras seperti antara muka konfigurasi strategi pengoptimuman teragih bersatu, carian strategi teragih automatik, toleransi kerosakan anjal automatik, perpustakaan pengurusan memori dinamik yang cekap dan penumpuan dipercepatkan pengoptimum yang dibangunkan sendiri. Sebagai perpustakaan pecutan lanjutan berprestasi tinggi bagi rangka kerja PyTorch, ATorch boleh meminimumkan pencerobohan kod pengguna dan menyediakan penyelesaian berprestasi tinggi yang mudah digunakan untuk latihan peringkat kilo-kad model besar dengan ratusan bilion parameter.
Baru-baru ini, ATorch telah mencapai keputusan cemerlang dalam amalan pengoptimuman latihan model besar yang menyasarkan model sumber terbuka. Sebagai contoh, ia berjaya meningkatkan kadar penggunaan kuasa pengkomputeran pra-latihan kilokalori model besar GLM-65b sumber terbuka Universiti Tsinghua daripada 28.8% kepada 62%, dan meningkatkan kadar penggunaan kuasa pengkomputeran pra-latihan model besar LLama2-70b. dibangunkan oleh Meta daripada 28.8% kepada 62%. 42% meningkat kepada 60%, dan kadar penggunaan kuasa pengkomputeran latihan Stable Diffusion, model berbilang modal besar yang dibangunkan oleh syarikat AI British Stability AI, meningkat daripada 21.8% kepada 58.7% . Di samping itu, ATorch telah menunjukkan prestasi yang baik dari segi kestabilan latihan kilokalori Purata masa latihan tulen harian telah meningkat kepada 95%, masa penjimatan ckpt dikawal dalam masa 1 minit, dan masa memulakan semula latihan adalah paling cepat 5 minit, mencapai. mencapai tahap peneraju industri.
Pada masa ini, ATorch telah disepadukan ke dalam produk sumber terbuka Ant Group DLRover, yang merupakan sistem pembelajaran mendalam teragih pintar yang dibina pada teknologi asli awan. Penambahan ATorch membolehkan pembangun model besar menumpukan lebih kepada reka bentuk seni bina model tanpa perlu berurusan dengan butiran kejuruteraan yang membosankan, sekali gus meningkatkan kecekapan latihan dan kecerdasan.
Atas ialah kandungan terperinci Perpustakaan sambungan latihan teragih sumber terbuka Ant AToch mencapai kadar penggunaan berkesan sebanyak 60% kuasa pengkomputeran latihan model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!