Saya menangis sampai mati, dunia gila nak buat model besar, data di Internet tak cukup, tak cukup langsung.
Model latihan adalah seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan kepada pemakan data besar ini.
Terutama dalam tugas pelbagai modal, masalah ini amat ketara. Apabila
mengalami kerugian, pasukan permulaan dari Jabatan Universiti Renmin menggunakan model baharunya sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan.
Selain itu, ia adalah pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua sisi boleh menjana data baharu yang berkualiti tinggi dan berbilang modal dan memberikan maklum balas data kepada model itu sendiri.
Apakah modelnya?
model besar berbilang modal Awaker 1.0 baru sahaja muncul di Forum Zhongguancun.
Siapa pasukan itu?
Enjin Sofon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Hillhouse School of Artificial Intelligence di Renmin University of China, dengan Profesor Lu Zhiwu dari Hillhouse School of Artificial Intelligence berkhidmat sebagai perunding. Apabila syarikat itu diasaskan pada 2021, ia memasuki landasan "tanah tiada manusia" bagi pelbagai modaliti lebih awal.
Ini bukan kali pertama Sophon Engine mengeluarkan model.
Pada 8 Mac tahun lepas, pasukan yang telah menumpukan dua tahun penyelidikan dan pembangunan mengeluarkan model berbilang modal yang dibangunkan sendiri pertama, model jujukan ChatImg dengan berpuluh bilion parameter, dan berdasarkan ini, melancarkan yang pertama di dunia dialog pelbagai modal penilaian awam Apply ChatImg(元 multiply xiang).
Kemudian, ChatImg terus bergerak, dan penyelidikan dan pembangunan model baharu Awaker juga dimajukan secara selari. Yang terakhir ini juga mewarisi keupayaan asas model sebelumnya.
Berbanding dengan model jujukan ChatImg generasi sebelumnya, Awaker 1.0 mengamalkan seni bina model MoE.
Sebabnya kami nak selesaikan masalah konflik serius dalam latihan multi-modal dan multi-task.
Menggunakan seni bina model MoE, ia boleh mempelajari dengan lebih baik keupayaan am pelbagai mod dan keupayaan unik yang diperlukan untuk setiap tugas, dengan itu meningkatkan lagi keupayaan seluruh Awaker 1.0 pada pelbagai tugas.
Data bernilai seribu perkataan:
Memandangkan masalah kebocoran data penilaian dalam senarai penilaian berbilang modal arus perdana, pasukan Sophon dengan ketat membina set penilaiannya sendiri, dan kebanyakan gambar ujian datang dari peribadi album telefon bimbit.
Jadual menunjukkan bahawa pasukan menilai Awaker 1.0 dan tiga model besar berbilang modal paling maju di dalam dan luar negara.
Satu lagi perkara yang perlu disebutkan, memandangkan GPT-4V dan Intern-VL tidak menyokong tugas pengesanan secara langsung, hasil pengesanan mereka diperoleh dengan memerlukan model menggunakan bahasa untuk menerangkan orientasi objek.
Dapat dilihat bahawa dalam menjawab soalan visual dan tugasan aplikasi perniagaan, model asas Awaker 1.0 melebihi GPT-4V, Qwen-VL-Max dan Intern-VL.
Model asas Awaker 1.0 mencapai keputusan kedua terbaik dalam tugas penerangan, penaakulan dan pengesanan.
Akhir sekali, melihat pada purata skor, Awaker 1.0 mempunyai nilai tertinggi di kalangan mereka.
Oleh itu, keputusan di atas juga mengesahkan keberkesanan model multi-modal multi-task menggunakan seni bina KPM.
Hasil penilaian set data sudah tersedia, tetapi kesan sebenar perlu dirasai lagi.
Di sini kami terutamanya bertanya beberapa soalan tentang OCR Bahasa Cina (pengecaman teks gambar), masalah mengira dan tugas penerangan terperinci antaranya dan model besar perbandingan.
Ini terutamanya ujian mengira:
Awaker 1.0 boleh memberikan jawapan yang betul, manakala tiga model lain semuanya menjawab salah.
Ujian utama ini ialah OCR Cina:
Pemain yang menjawab betul ialah Qwen-VL-Max dan Awaker 1.0.
Soalan terakhir menguji memahami isi kandungan gambar.
GPT-4V dan Awaker 1.0 bukan sahaja dapat menerangkan kandungan gambar secara terperinci, tetapi juga mengenal pasti butiran dalam gambar dengan tepat, seperti Coca-Cola yang ditunjukkan dalam gambar.
Saya perlu menyebut bahawa Awaker 1.0 mewarisi beberapa hasil penyelidikan yang sebelum ini telah mendapat banyak perhatian daripada pasukan Sophon.
Saya bercakap tentang anda - pihak yang dijana Awaker 1.0.
Sisi penjanaan Awaker 1.0 ialah asas penjanaan video seperti Sora VDT (Video Diffusion Transformer) dibangunkan secara bebas oleh Sophon Engine.
Kertas akademik VDT mendahului keluaran OpenAI Sora (pada Mei tahun lalu) , dan telah diterima oleh persidangan teratas ICLR 2024.
Inovasi unik VDT terutamanya merangkumi dua perkara.
Pertama, Diffusion Transformer diguna pakai dalam seni bina teknikal Sebelum OpenAI, ia menunjukkan potensi besar Transformer dalam bidang penjanaan video. Kelebihannya terletak pada keupayaan penangkapan bergantung masa yang sangat baik, mampu menjana bingkai video koheren sementara, termasuk mensimulasikan dinamik fizikal objek tiga dimensi dari semasa ke semasa.
Yang kedua ialah mencadangkan mekanisme pemodelan topeng spatiotemporal bersatu untuk membolehkan VDT mengendalikan pelbagai tugas penjanaan video. Kaedah pemprosesan maklumat bersyarat fleksibel VDT, seperti penyambungan ruang token yang mudah, menyatukan maklumat dengan panjang dan modaliti yang berbeza dengan berkesan.
Pada masa yang sama, dengan menggabungkan dengan mekanisme pemodelan topeng spatiotemporal yang dicadangkan dalam kerja ini, VDT telah menjadi alat penyebaran video universal, yang boleh digunakan untuk penjanaan tanpa syarat, ramalan bingkai video berikutnya, sisipan bingkai, dll. tanpa mengubah suai struktur model. Pelbagai tugas penjanaan video seperti video penciptaan imej dan penyiapan skrin video.
Difahamkan bahawa pasukan enjin Sophon bukan sahaja meneroka simulasi VDT mengenai undang-undang fizikal mudah, tetapi juga mendapati bahawa
boleh mensimulasikan proses fizikal:
juga telah dijalankan pada
tugas penjanaan video potret realistikTeroka secara mendalam. Oleh kerana mata kasar sangat sensitif terhadap perubahan dinamik pada wajah dan orang, tugas ini mempunyai keperluan yang sangat tinggi untuk kualiti penjanaan video. Walau bagaimanapun, enjin Sophon telah menembusi kebanyakan teknologi utama untuk penjanaan video potret hiper-realistik, dan tidak kurang hebatnya daripada Sora.
Tiada asas untuk apa yang anda katakan. Ini adalah kesan enjin Sophon yang menggabungkan VDT dan penjanaan boleh dikawal untuk meningkatkan kualiti penjanaan video potret: Dilaporkan bahawa enjin Sophon akan terus mengoptimumkan algoritma penjanaan aksara yang boleh dikawal dan meneroka pengkomersilan secara aktif. Menjana aliran data interaktif baharu yang mantapApa yang lebih patut diberi perhatian ialah pasukan enjin Sophon menekankan: Awaker 1.0 ialah model besar berbilang modal pertama di dunia yang boleh dikemas kini secara bebas. Dalam erti kata lain, Awaker 1.0 adalah "hidup" dan parameternya boleh dikemas kini secara berterusan dalam masa nyata - ini menjadikan Awaker 1.0 berbeza daripada semua model berbilang modal besar
Mekanisme kemas kini autonomi Awaker 1.0 merangkumi tiga kunci teknologi ialah:Penjanaan data aktif
Awaker 1.0 berinteraksi dengan dunia digital dan sebenar. Dalam proses melaksanakan tugas, Awaker 1.0 menyuap kembali data gelagat pemandangan kepada model untuk mencapai pengemaskinian dan latihan berterusan.
Dari segi penjanaan,Awaker 1.0 boleh melaksanakan penjanaan kandungan berbilang modal berkualiti tinggi, menyediakan lebih banyak data latihan untuk model sampingan pemahaman. Dalam dua gelung sisi pemahaman dan sisi generasi, Awaker 1.0 sebenarnya merealisasikan integrasi pemahaman visual dan penjanaan visual.
Anda tahu, selepas Sora keluar, semakin banyak suara yang mengatakan bahawa untuk mencapai AGI, "perpaduan persefahaman dan generasi" mesti dicapai.Mengambil suntikan pengetahuan baharu sebagai contoh, mari kita lihat contoh khusus run-through.
Awaker 1.0 boleh terus mempelajari maklumat berita masa nyata dari Internet Pada masa yang sama, ia menggabungkan maklumat berita yang baru dipelajari untuk menjawab pelbagai soalan yang rumit. Ini berbeza daripada dua kaedah arus perdana, iaitu kaedah RAG dan konteks panjang tradisional Awaker 1.0 benar-benar "menghafal" pengetahuan baharu dalam parameter modelnya sendiri.
Anda dapat melihat bahawa selama tiga hari berturut-turut mengemas kini diri, Awaker 1.0 boleh mempelajari maklumat berita hari itu setiap hari dan menyatakan maklumat yang sepadan dengan tepat dalam huraian.
Dan walaupun ia telah belajar, Awaker 1.0 tidak melupakan satu perkara atau yang lain Ia tidak akan cepat melupakan apa yang telah dipelajari. Sebagai contoh, ilmu berkaitan Zhijie S7 yang dipelajari pada 16 April masih diingati atau difahami oleh Awaker 1.0 2 hari kemudian. Jadi, dalam era ini di mana data seperti emas, berhenti mengeluh "data tidak cukup".Untuk pasukan yang menghadapi kesesakan data, bukankah Awaker 1.0 merupakan pilihan baharu yang boleh dilaksanakan dan boleh digunakan?
Dalam erti kata lain, ia adalah tepat kerana integrasi pemahaman visual dan penjanaan visual bahawa apabila menghadapi masalah "menyesuaikan model besar berbilang modal kepada kecerdasan yang terkandung", kebanggaan Awaker 1.0 Ia telah didedahkan dengan jelas.
Perkaranya ialah:
Awaker 1.0, model berbilang modal yang besar, mempunyai keupayaan pemahaman visual yang boleh digabungkan secara semula jadi dengan "mata" kecerdasan yang terkandung.
Dan suara arus perdana juga percaya bahawa "model besar berbilang modal + kecerdasan terkandung" boleh meningkatkan kebolehsuaian dan kreativiti kecerdasan yang terkandung, malah mungkin merupakan laluan yang boleh dilaksanakan untuk merealisasikan AGI.
Alasannya tidak lebih daripada dua mata.
Pertama, Orang ramai mengharapkan kecerdasan yang terkandung dapat disesuaikan, iaitu, ejen boleh menyesuaikan diri dengan perubahan persekitaran aplikasi melalui pembelajaran berterusan.
Dengan cara ini, kecerdasan yang terkandung bukan sahaja boleh melakukan lebih baik dan lebih baik pada tugas berbilang modal yang diketahui, tetapi juga cepat menyesuaikan diri dengan tugas berbilang modal yang tidak diketahui.
Kedua, Orang ramai juga mengharapkan kecerdasan yang terkandung untuk menjadi benar-benar kreatif, berharap ia dapat menemui strategi dan penyelesaian baharu serta meneroka sempadan keupayaan AI melalui penerokaan alam sekitar secara autonomi.
Tetapi penyesuaian kedua-duanya tidak semudah hanya menghubungkan model berbilang modal yang besar ke badan, atau secara langsung memasang otak ke dalam kecerdasan yang terkandung.
Mengambil model besar berbilang modal sebagai contoh, terdapat sekurang-kurangnya dua masalah nyata yang dihadapi oleh kita.
Pertama, kitaran kemas kini berulang model adalah panjang, yang memerlukan banyak pelaburan tenaga kerja
Kedua, data latihan model semuanya diperoleh daripada data sedia ada, dan model tidak boleh berterusan; memperoleh sejumlah besar pengetahuan baharu. Walaupun ia juga mungkin untuk menyuntik pengetahuan baharu yang terus muncul melalui RAG dan mengembangkan tetingkap konteks, model tidak dapat mengingatinya, dan kaedah pemulihan akan membawa masalah tambahan.
Secara ringkasnya, model berbilang modal besar masa kini tidak begitu mudah disesuaikan dalam senario aplikasi sebenar, apatah lagi kreatif sehingga mengakibatkan pelbagai kesukaran apabila dilaksanakan dalam industri.
Hebat - ingat apa yang kami sebutkan tadi, Awaker 1.0 bukan sahaja dapat mempelajari ilmu baru, tetapi juga mengingati pengetahuan baru, dan pembelajaran seperti ini adalah setiap hari, berterusan dan tepat pada masanya.
Seperti yang dapat dilihat daripada rajah bingkai ini, Awaker 1.0 boleh digabungkan dengan pelbagai peranti pintar, memerhati dunia melalui peranti pintar, menjana niat tindakan dan membina arahan secara automatik untuk mengawal peranti pintar untuk menyelesaikan pelbagai tindakan.
Selepas menyelesaikan pelbagai tindakan, peranti pintar secara automatik akan menjana pelbagai maklum balas Awaker 1.0 boleh mendapatkan data latihan yang berkesan daripada tindakan dan maklum balas ini untuk mengemas kini dirinya secara berterusan dan terus mengukuhkan pelbagai keupayaan model.
Ini bersamaan dengan kecerdasan yang terkandung yang mempunyai otak yang hidup.
Siapa yang tidak berkata bagaimana bayar(kepala anjing)~
Apa yang paling penting ialah kerana keupayaannya untuk mengemas kini secara bebas, Awaker 1.0 bukan sahaja boleh disesuaikan dengan kecerdasan yang terkandung, ia juga boleh digunakan untuk yang lebih luas. pelbagai senario industri aplikasi dan boleh menyelesaikan tugas praktikal yang lebih kompleks.
Sebagai contoh, Awaker 1.0 disepadukan dengan pelbagai peranti pintar untuk mencapai kerjasama tepi awan.
Pada masa ini, Awaker 1.0 ialah "otak" yang digunakan dalam awan, memerhati, memerintah dan mengawal pelbagai peranti pintar tepi untuk melaksanakan pelbagai tugas.
Maklum balas yang diperoleh apabila peranti pintar edge melakukan pelbagai tugas akan terus dihantar kembali ke Awaker 1.0, membolehkannya mendapatkan data latihan secara berterusan dan mengemas kini dirinya secara berterusan.
Ini bukan sekadar perbincangan di atas kertas Laluan teknikal Awaker 1.0 dan kolaborasi cloud-edge dengan peranti pintar telah digunakan dalam senario aplikasi seperti pemeriksaan grid pintar dan bandar pintar, dan telah mencapai hasil pengiktirafan yang jauh lebih baik daripada yang tersebut. daripada model kecil tradisional.
Model berbilang modal yang besar boleh mendengar, melihat dan bercakap Ia telah menunjukkan potensi dan nilai aplikasi yang besar dalam banyak bidang seperti pengecaman pertuturan, pemprosesan imej dan pemahaman bahasa semula jadi.
Tetapi masalahnya jelas, bagaimana untuk terus menyerap pengetahuan baru dan menyesuaikan diri dengan perubahan baru?
Boleh dikatakan memupuk kekuatan dalaman dan meningkatkan seni mempertahankan diri telah menjadi isu penting yang dihadapi oleh model besar pelbagai modal.
Kemunculan enjin Sophon Awaker 1.0 menyediakan kunci kepada transendensi diri model besar pelbagai mod.
Nampaknya telah menguasai kaedah menarik bintang Melalui mekanisme kemas kini bebas, ia memecahkan kesesakan kekurangan data dan menyediakan kemungkinan untuk pembelajaran berterusan dan evolusi kendiri model besar berbilang modal; teknologi kerjasama edge untuk berani meneroka dunia senario aplikasi khusus peranti pintar seperti kecerdasan yang terkandung.
Ini mungkin satu langkah kecil ke arah AGI, tetapi ia juga merupakan permulaan perjalanan transendensi diri untuk model besar berbilang modal.
Perjalanan yang panjang dan sukar memerlukan pasukan seperti Sophon Engine untuk terus mendaki ke puncak teknologi.
Atas ialah kandungan terperinci Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!