Rumah > Peranti teknologi > AI > Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian

Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian

WBOY
Lepaskan: 2024-01-26 08:24:06
ke hadapan
1147 orang telah melayarinya

Pada 24 Januari, Shanghai Yanxinshuzhi Artificial Intelligence Technology Co., Ltd. melancarkan model bahasa semula jadi umum yang besar tanpa model Perhatian mekanisme-Yan. Menurut sidang akhbar Yancore Digital Intelligence, model Yan menggunakan "seni bina Yan" yang dibangunkan sendiri untuk menggantikan seni bina Transformer Berbanding dengan Transformer, seni bina Yan mempunyai kapasiti memori meningkat sebanyak 3 kali, kelajuan meningkat sebanyak 7 kali, dan pada masa yang sama, ia boleh mencapai hasil inferens 5 kali peningkatan. Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talianLiu Fanping, Ketua Pegawai Eksekutif Yancore Digital Intelligence, percaya bahawa Transformer, yang terkenal dengan skala besar, mempunyai kuasa pengkomputeran yang tinggi dan kos yang tinggi dalam aplikasi praktikal, yang telah menghalang banyak perusahaan kecil dan sederhana. Kerumitan seni bina dalamannya menjadikan proses membuat keputusan sukar untuk dijelaskan; kesukaran dalam memproses urutan panjang dan masalah halusinasi yang tidak terkawal juga mengehadkan penggunaan luas model besar dalam bidang utama dan senario khas tertentu. Dengan mempopularkan pengkomputeran awan dan pengkomputeran tepi, permintaan industri untuk model AI berskala besar dengan prestasi tinggi dan penggunaan tenaga yang rendah semakin meningkat.
"Di peringkat global, ramai penyelidik cemerlang telah cuba menyelesaikan secara asasnya pergantungan yang berlebihan pada seni bina Transformer dan mencari cara yang lebih baik untuk menggantikan Transformer. Malah Llion Jones, salah seorang pengarang kertas Transformer, juga meneroka 'Kemungkinan selepas Transformer' cuba menggunakan kaedah pintar yang diilhamkan oleh alam semula jadi berdasarkan prinsip evolusi untuk mencipta definisi semula rangka kerja AI dari sudut yang berbeza."
Pada sidang akhbar itu, Core Digital berkata bahawa di bawah keadaan sumber yang sama, Kecekapan latihan dan hasil inferens model seni bina Yan adalah 7 kali ganda dan 5 kali ganda daripada seni bina Transformer, dan kapasiti memori dipertingkatkan sebanyak 3 kali ganda. Reka bentuk seni bina Yan menjadikan kerumitan ruang model Yan malar semasa inferens Oleh itu, model Yan juga berprestasi baik terhadap masalah jujukan panjang yang dihadapi oleh Transformer. Data perbandingan menunjukkan bahawa pada satu kad grafik 4090 24G, apabila panjang token keluaran model melebihi 2600, model Transformer akan mengalami memori video yang tidak mencukupi, manakala penggunaan memori video model Yan sentiasa stabil pada sekitar 14G, yang mana secara teorinya membolehkan inferens panjang tak terhingga.

Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian

Selain itu, pasukan penyelidik mempelopori fungsi ciri korelasi yang munasabah dan pengendali ingatan, digabungkan dengan kaedah pengiraan linear, untuk mengurangkan kerumitan struktur dalaman model. Model Yan di bawah seni bina baharu akan membuka "kotak hitam yang tidak boleh ditafsirkan" pemprosesan bahasa semula jadi pada masa lalu, meneroka sepenuhnya ketelusan dan kebolehjelasan proses membuat keputusan, dan dengan itu memudahkan penggunaan meluas model besar dalam bidang berisiko tinggi seperti penjagaan perubatan, kewangan, dan undang-undang.

Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian


Liu Fanping berkata bahawa model Yan 100% menyokong aplikasi penempatan yang diswastakan dan boleh berjalan tanpa rugi pada peranti sisi hujung seperti CPU gred pengguna arus perdana tanpa keratan atau pemampatan, mencapai kesan yang sama seperti model lain yang dijalankan pada GPU. Pada sidang akhbar itu, Yan menunjukkan klip masa nyata yang berjalan pada komputer riba selepas berada di luar talian Liu Fanping berkata bahawa penggunaan bahagian hujung luar talian akan menjadi hala tuju pengkomersialan yang penting bagi Perisikan Teras pada masa hadapan.

Atas ialah kandungan terperinci Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan