Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan-AI-php.cn

Pada Persidangan Kepintaran Buatan Dunia 2024, ramai orang berbaris di hadapan gerai hanya untuk membiarkan model AI besar "mengatur" tugas untuk mereka di syurga. .

Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan "Atur" tugas syurga mengikut jenis personaliti

Kaedah pengalaman:

Beratur di tapak
Pengalaman dalam talian (imbas kod QR di bawah)
Stepling model syarikat besar

Pengalaman interaktif AI "AI + Havoc in Heaven" dengan kerjasama Shanghai Film Studio hanyalah pembuka selera untuk Stepping Stars untuk mempamerkan daya tarikan model besar. Semasa WAIC, mereka dengan hebatnya melancarkan langkah besar berikut:

MoE model besar dengan trilion parameter
Step-2 versi rasmi
Model besar berbilang modal dengan ratusan bilion parameterLangkah:

: Step-1X
Step-2 trilion parameter model besarSelepas memulakan debutnya dengan Step Stars pada bulan Mac, bermula sepenuhnya dengan Step-2 Stars -4 tahap, dengan prestasi cemerlang dalam logik matematik, pengaturcaraan, pengetahuan bahasa Cina, pengetahuan bahasa Inggeris dan arahan berikut.
Model besar berbilang mod langkah-1.5VBerdasarkan model Langkah-2, Step Star membangunkan model besar berbilang mod Step-1.5V, yang bukan sahaja mempunyai keupayaan persepsi dan pemahaman video yang kuat, tetapi juga boleh Kandungan imej untuk penaakulan lanjutan (seperti menyelesaikan masalah matematik, menulis kod, mengarang puisi).

Model penjanaan imej besar Step-1X

Penjanaan imej dalam "AI + Upheaval in Heaven" dilengkapkan oleh model Step-1X, yang dioptimumkan secara mendalam untuk unsur Cina dan mempunyai penjajaran semantik dan keupayaan mengikuti arahan yang sangat baik.

Step Star telah mewujudkan matriks model besar yang lengkap meliputi trilion parameter model besar MoE dan model besar berbilang modal, menjadi eselon pertama syarikat permulaan model besar

. Ini disebabkan oleh kegigihan mereka dalam Undang-undang Penskalaan dan teknologi yang sepadan serta kekuatan sumber.

Model besar parameter

Step-2 trilion

dilatih dari awal akan meningkatkan keupayaan penaakulan model dengan ketara dalam bidang seperti matematik dan pengaturcaraan. Langkah-2 boleh menyelesaikan masalah logik dan pengaturcaraan matematik yang lebih kompleks daripada model peringkat 100 bilion, dan telah disahkan secara kuantitatif oleh penilaian penanda aras.

Selain itu, keupayaan bahasa Cina dan Inggeris serta kebolehan mengikuti arahan juga telah dipertingkatkan dengan ketara.
Sebab mengapa Langkah-2 menunjukkan prestasi yang baik adalah, dalam satu pihak, bilangan parameternya yang besar, dan sebaliknya, kaedah latihannya.
Kami tahu bahawa terdapat dua cara utama untuk melatih model KPM. Salah satunya ialah kitaran atas, iaitu untuk meningkatkan lagi prestasi model dengan cara yang lebih cekap dan menjimatkan dengan menggunakan semula hasil perantaraan proses latihan atau model yang telah dilatih. Kaedah latihan ini memerlukan kuasa pengkomputeran yang rendah dan mempunyai kecekapan latihan yang tinggi, tetapi model terlatih selalunya mempunyai had atas yang lebih rendah. Sebagai contoh, apabila melatih model KPM, jika beberapa model pakar diperoleh dengan menyalin dan memperhalusi model asas yang sama, mungkin terdapat tahap persamaan yang tinggi antara model pakar ini akan mengehadkan peningkatan prestasi model KPM ruang.
Memandangkan batasan ini, Step Stars memilih pendekatan lain - penyelidikan dan pembangunan dan latihan yang bebas sepenuhnya dari awal. Walaupun kaedah ini sukar untuk dilatih dan menggunakan banyak kuasa pengkomputeran, ia boleh mencapai had atas model yang lebih tinggi.
Secara khusus, mereka mula-mula membuat beberapa inovasi dalam reka bentuk seni bina MoE, termasuk perkongsian parameter oleh beberapa pakar, reka bentuk pakar heterogen, dsb. Yang pertama memastikan bahawa keupayaan umum tertentu dikongsi di kalangan berbilang pakar, tetapi pada masa yang sama setiap pakar masih mengekalkan keunikannya. Yang terakhir ini meningkatkan kepelbagaian dan prestasi keseluruhan model dengan mereka bentuk pelbagai jenis model pakar supaya setiap pakar mempunyai kelebihan unik pada tugas tertentu.
Berdasarkan inovasi ini, Langkah-2 bukan sahaja mempunyai jumlah parameter yang mencapai tahap trilion, tetapi juga bilangan parameter yang diaktifkan untuk setiap latihan atau inferens melebihi kebanyakan model padat di pasaran.
Selain itu, melatih model trilion parameter dari awal juga merupakan ujian besar untuk pasukan sistem. Nasib baik, pasukan Step Star System mempunyai pengalaman praktikal yang kaya dalam pembinaan dan pengurusan sistem, yang membolehkan mereka berjaya menembusi teknologi utama seperti selari 6D, pengurusan memori video yang melampau dan operasi dan penyelenggaraan automatik sepenuhnya semasa proses latihan, dan berjaya disiapkan. Langkah-2. Model besar berbilang modal Step-1.5V berdiri di atas bahu Step-2
Tiga bulan lalu, Step Star mengeluarkan model besar berbilang modal Step-1V. Baru-baru ini, dengan keluaran versi rasmi Langkah-2, model berbilang modal besar ini juga telah dinaik taraf kepada versi 1.5.
Langkah-1.5V tertumpu terutamanya pada keupayaan pemahaman pelbagai mod. Berbanding dengan versi sebelumnya, keupayaan persepsinya telah dipertingkatkan dengan banyaknya. Ia boleh memahami carta dan carta alir yang kompleks, melihat dengan tepat kedudukan geometri kompleks dalam ruang fizikal, dan juga boleh memproses imej nisbah aspek yang melampau.

Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan

Selain itu, ia juga boleh memahami video, termasuk objek, watak, persekitaran dan keseluruhan suasana serta emosi watak dalam video.

Seperti yang dinyatakan sebelum ini, Langkah-2 memainkan peranan yang sangat diperlukan dalam kelahiran Langkah-1.5V. Ini bermakna semasa proses latihan RLHF (pembelajaran pengukuhan berdasarkan maklum balas manusia) Langkah-1, Langkah-2 digunakan sebagai model yang diselia, yang bersamaan dengan Langkah-1.5V yang mempunyai satu trilion parameter menjadi guru. Di bawah bimbingan guru ini, keupayaan penaakulan Langkah-1.5V telah dipertingkatkan dengan banyak, dan ia boleh melaksanakan pelbagai tugasan penaakulan lanjutan berdasarkan kandungan imej, seperti menyelesaikan masalah matematik, menulis kod, mengarang puisi, dsb. Ini juga merupakan salah satu keupayaan yang ditunjukkan oleh OpenAI GPT-4o baru-baru ini Keupayaan ini telah menjadikan dunia luar penuh dengan jangkaan untuk prospek aplikasinya.

Keupayaan penjanaan pelbagai modal ditunjukkan terutamanya dalam model baharu Step-1X. Berbanding dengan beberapa model yang serupa, ia mempunyai penjajaran semantik dan keupayaan mengikut arahan yang lebih baik Pada masa yang sama, ia telah dioptimumkan secara mendalam untuk unsur Cina dan lebih sesuai untuk gaya estetik orang Cina.

Pengalaman interaktif AI "Havoc in Heaven" yang dicipta berdasarkan model ini menyepadukan pemahaman imej, pemindahan gaya, penjanaan imej, penciptaan plot dan keupayaan lain, dengan kaya dan tiga dimensi yang menunjukkan pelbagai modaliti peneraju industri Tahap Bintang Langkah. Sebagai contoh, apabila menjana aksara awal, sistem akan terlebih dahulu menentukan sama ada foto yang dimuat naik oleh pengguna memenuhi keperluan untuk "mencubit muka", dan kemudian secara fleksibel memberi maklum balas dalam gaya bahasa yang sangat "Kekacauan di Syurga". Ini mencerminkan keupayaan pemahaman gambar model dan keupayaan model bahasa yang besar. Dengan sokongan teknologi model besar, permainan ini membolehkan pemain memperoleh pengalaman interaktif yang berbeza daripada permainan tradisional H5 dalam talian. Oleh kerana semua soalan interaktif, imej pengguna dan hasil analisis dijana oleh model selepas mempelajari ciri dalam masa nyata, kemungkinan beribu-ribu orang dan muka serta plot tanpa had benar-benar direalisasikan.

Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan Persembahan cemerlang ini tidak dapat dipisahkan daripada seni bina model DiT yang dibangunkan oleh Stepstar Full Link (Sora OpenAI juga merupakan seni bina DiT). Untuk membolehkan lebih ramai orang menggunakan model ini, Step Star telah mereka bentuk tiga kuantiti parameter berbeza untuk Step-1X: 600M, 2B dan 8B untuk memenuhi keperluan senario kuasa pengkomputeran yang berbeza.

Pada acara sulung pada bulan Mac, Jiang Daxin, pengasas Step Star, dengan jelas menyatakan bahawa dia percaya bahawa evolusi model besar akan melalui tiga peringkat:

Pada peringkat pertama, setiap modaliti seperti bahasa, penglihatan dan bunyi berkembang secara bebas, dan model setiap modaliti memberi tumpuan kepada pembelajaran dan mencirikan ciri-ciri modaliti khususnya.
Di peringkat kedua, mod berbeza mula bergabung. Walau bagaimanapun, integrasi ini tidak lengkap, dan tugas pemahaman dan penjanaan masih dipisahkan Ini menghasilkan model dengan keupayaan pemahaman yang kuat tetapi keupayaan penjanaan yang lemah, atau sebaliknya.
Pada peringkat ketiga, generasi dan pemahaman disatukan dalam model, dan kemudian disepadukan sepenuhnya dengan robot untuk membentuk kecerdasan yang terkandung. Seterusnya, kecerdasan yang terkandung secara aktif meneroka dunia fizikal, dan kemudian secara beransur-ansur berkembang menjadi model dunia, dengan itu merealisasikan AGI.

Ini juga laluan yang Jiang Daxin dan yang lain ikuti sejak awal perniagaan mereka. Di jalan ini, "Tillions of parameters" dan "multi-mod fusion" sangat diperlukan Step-2, Step-1.5V, dan Step-1X adalah semua nod yang telah dicapai di jalan ini.

Selain itu, nod ini disambungkan satu demi satu. Ambil OpenAI sebagai contoh Model penjanaan video Sora yang dikeluarkan pada awal tahun menggunakan alat dalaman OpenAI (kemungkinan besar GPT-4V) untuk anotasi dan GPT-4V dilatih berdasarkan teknologi berkaitan GPT-4. Dari sudut pandangan semasa, keupayaan berkuasa model-modal tunggal akan meletakkan asas untuk pelbagai modaliti akan meletakkan asas untuk penjanaan. Bergantung pada matriks model sedemikian, OpenAI menyedari kaki kiri memijak kaki kanan. Dan Step Star mengesahkan laluan ini di China.

Kami berharap syarikat ini membawa lebih banyak kejutan kepada bidang model besar domestik.

Atas ialah kandungan terperinci Didedahkan: Step Star trilion MoE+ multi-modal model matriks besar diumumkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!