Pada 24 Januari, Shanghai Yanxinshuzhi Artificial Intelligence Technology Co., Ltd. melancarkan model bahasa semula jadi umum yang besar tanpa model Perhatian mekanisme-Yan. Menurut sidang akhbar Yancore Digital Intelligence, model Yan menggunakan "seni bina Yan" yang dibangunkan sendiri untuk menggantikan seni bina Transformer Berbanding dengan Transformer, seni bina Yan mempunyai kapasiti memori meningkat sebanyak 3 kali, kelajuan meningkat sebanyak 7 kali, dan pada masa yang sama, ia boleh mencapai hasil inferens 5 kali peningkatan. Liu Fanping, Ketua Pegawai Eksekutif Yancore Digital Intelligence, percaya bahawa Transformer, yang terkenal dengan skala besar, mempunyai kuasa pengkomputeran yang tinggi dan kos yang tinggi dalam aplikasi praktikal, yang telah menghalang banyak perusahaan kecil dan sederhana. Kerumitan seni bina dalamannya menjadikan proses membuat keputusan sukar untuk dijelaskan; kesukaran dalam memproses urutan panjang dan masalah halusinasi yang tidak terkawal juga mengehadkan penggunaan luas model besar dalam bidang utama dan senario khas tertentu. Dengan mempopularkan pengkomputeran awan dan pengkomputeran tepi, permintaan industri untuk model AI berskala besar dengan prestasi tinggi dan penggunaan tenaga yang rendah semakin meningkat.
"Di peringkat global, ramai penyelidik cemerlang telah cuba menyelesaikan secara asasnya pergantungan yang berlebihan pada seni bina Transformer dan mencari cara yang lebih baik untuk menggantikan Transformer. Malah Llion Jones, salah seorang pengarang kertas Transformer, juga meneroka 'Kemungkinan selepas Transformer' cuba menggunakan kaedah pintar yang diilhamkan oleh alam semula jadi berdasarkan prinsip evolusi untuk mencipta definisi semula rangka kerja AI dari sudut yang berbeza."
Pada sidang akhbar itu, Core Digital berkata bahawa di bawah keadaan sumber yang sama, Kecekapan latihan dan hasil inferens model seni bina Yan adalah 7 kali ganda dan 5 kali ganda daripada seni bina Transformer, dan kapasiti memori dipertingkatkan sebanyak 3 kali ganda. Reka bentuk seni bina Yan menjadikan kerumitan ruang model Yan malar semasa inferens Oleh itu, model Yan juga berprestasi baik terhadap masalah jujukan panjang yang dihadapi oleh Transformer. Data perbandingan menunjukkan bahawa pada satu kad grafik 4090 24G, apabila panjang token keluaran model melebihi 2600, model Transformer akan mengalami memori video yang tidak mencukupi, manakala penggunaan memori video model Yan sentiasa stabil pada sekitar 14G, yang mana secara teorinya membolehkan inferens panjang tak terhingga.
Atas ialah kandungan terperinci Yancore Digital mengeluarkan model mekanisme bukan Perhatian berskala besar yang menyokong penggunaan sisi peranti luar talian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!