


Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5
Bilakah GPT-5 akan tiba dan apakah keupayaan yang akan ada?
Sebuah model baharu dari Allen Institute for AI memberitahu anda jawapannya.
Unified-IO 2 yang dilancarkan oleh Allen Institute for Artificial Intelligence ialah model pertama yang boleh memproses dan menjana teks, imej, audio, video dan urutan tindakan.
Model AI lanjutan ini dilatih menggunakan berbilion titik data Saiz model hanya 7B, tetapi ia mempamerkan keupayaan berbilang modal yang paling luas setakat ini.
Alamat kertas: https://arxiv.org/pdf/2312.17172.pdf
Jadi, apakah hubungan antara Unified-IO 2 dan GPT-5?
Pada Jun 2022, Allen Institute for Artificial Intelligence melancarkan generasi pertama Unified-IO, menjadi salah satu model berbilang modal yang mampu memproses imej dan bahasa secara serentak.
Pada masa yang sama, OpenAI sedang menguji GPT-4 secara dalaman dan akan mengeluarkannya secara rasmi pada Mac 2023.
Jadi, Unified-IO boleh dilihat sebagai pratonton model AI berskala besar masa hadapan.
OpenAI mungkin menguji GPT-5 secara dalaman dan akan mengeluarkannya dalam beberapa bulan.
Keupayaan yang ditunjukkan kepada kami oleh Unified-IO 2 kali ini juga akan menjadi perkara yang boleh kami nantikan pada tahun baharu:
GPT-5 dan model AI baharu yang lain boleh mengendalikan lebih banyak modaliti, Pembelajaran yang meluas untuk melaksanakan banyak tugas secara tempatan dan pemahaman asas berinteraksi dengan objek dan robot.
Data latihan Unified-IO 2 termasuk: 1 bilion pasangan teks imej, 1 trilion tag teks, 180 juta klip video, 130 juta imej dengan teks, 3 juta aset 3D dan 1 juta jujukan gerakan ejen robot.
Pasukan penyelidik menggabungkan sejumlah lebih daripada 120 set data ke dalam pakej 600 TB yang meliputi 220 tugas visual, bahasa, pendengaran dan motor.
Unified-IO 2 menggunakan seni bina penyahkod pengekod dengan beberapa perubahan untuk menstabilkan latihan dan menggunakan isyarat berbilang modal dengan berkesan.
Model boleh menjawab soalan, menulis teks mengikut arahan dan menganalisis kandungan teks.
Model ini juga boleh mengenal pasti kandungan imej, memberikan penerangan imej, melaksanakan tugas pemprosesan imej dan mencipta imej baharu berdasarkan penerangan teks.
Ia juga boleh menjana muzik atau bunyi berdasarkan penerangan atau arahan, serta menganalisis video dan menjawab soalan tentangnya.
Dengan menggunakan data robot untuk latihan, Unified-IO 2 juga boleh menjana tindakan untuk sistem robot, seperti menukar arahan kepada urutan tindakan untuk robot.
Terima kasih kepada latihan pelbagai modal, ia juga boleh mengendalikan modaliti yang berbeza, contohnya, melabelkan instrumen yang digunakan dalam trek tertentu pada imej.
Unified-IO 2 berprestasi baik pada lebih daripada 35 penanda aras, termasuk penjanaan dan pemahaman imej, pemahaman bahasa semula jadi, pemahaman video dan audio serta manipulasi robot.
Dalam kebanyakan tugas, ia adalah sebaik atau lebih baik daripada model khusus.
Unified-IO 2 mencapai markah tertinggi setakat ini pada penanda aras GRIT untuk tugasan imej (GRIT digunakan untuk menguji cara model mengendalikan hingar imej dan isu lain).
Para penyelidik kini merancang untuk melanjutkan lagi Unified-IO 2, meningkatkan kualiti data dan mengubah model penyahkod pengekod kepada seni bina model penyahkod standard industri.
Unified-IO 2
Unified-IO 2 ialah model berbilang mod autoregresif pertama yang mampu memahami dan menjana imej, teks, audio dan gerakan.
Untuk menyatukan modaliti yang berbeza, penyelidik melabelkan input dan output (imej, teks, audio, tindakan, kotak sempadan, dll.) ke dalam ruang semantik dikongsi dan kemudian menggunakan model pengubah pengekod-penyahkod tunggal Memprosesnya.
Disebabkan jumlah data yang banyak digunakan untuk melatih model dan datang daripada pelbagai modaliti yang berbeza, penyelidik telah menggunakan beberapa siri teknik untuk menambah baik keseluruhan proses latihan.
Untuk memudahkan pembelajaran isyarat penyeliaan sendiri dengan berkesan merentas pelbagai modaliti, penyelidik membangunkan hibrid multimodal baru bagi sasaran denoiser yang menggabungkan denoiser silang mod dan penjanaan.
Pembungkusan dinamik juga telah dibangunkan untuk meningkatkan daya pengeluaran latihan sebanyak 4x untuk mengendalikan urutan yang sangat berubah-ubah.
Untuk mengatasi isu kestabilan dan kebolehskalaan dalam latihan, penyelidik membuat perubahan seni bina pada resampler perceptron, termasuk pembenaman putaran 2D, penormalan QK dan mekanisme perhatian kosinus berskala.
Untuk pelarasan arahan, pastikan setiap misi mempunyai gesaan yang jelas, sama ada menggunakan misi sedia ada atau membuat yang baharu. Tugasan terbuka juga disertakan, dan tugasan sintetik dicipta untuk corak yang kurang biasa untuk meningkatkan kepelbagaian tugas dan pengajaran.
Nyatakan Tugas Perwakilan Data Multimodal ke dalam urutan token dalam ruang perwakilan bersama, termasuk aspek berikut:
Text, struktur jarang dan operasiText input dan output adalah token menggunakan pengekodan pasangan bait dalam LLaMA, struktur jarang seperti kotak sempadan, titik kekunci dan pose kamera didiskrisikan dan kemudian dikodkan menggunakan 1000 token khas yang ditambahkan pada perbendaharaan kata.
Mata dikodkan menggunakan dua penanda (x, y), kotak dikodkan dengan urutan empat penanda (kiri atas dan kanan bawah), dan kuboid 3D diwakili dengan 12 penanda (pusat unjuran pengekodan, kedalaman maya, pasangan (bilangan saiz kotak yang dinormalkan, dan putaran sepusat berterusan).
Untuk tugasan yang terkandung, tindakan robot diskret dijana sebagai arahan teks (cth., "maju ke hadapan"). Tag khas digunakan untuk mengekod keadaan robot (seperti kedudukan dan putaran).
Imej dan Struktur Padat
Imej dikodkan menggunakan pengubah visual terlatih (ViT). Ciri tampalan lapisan kedua dan kedua terakhir ViT digabungkan untuk menangkap maklumat visual peringkat rendah dan tinggi.
Apabila menjana imej, gunakan VQ-GAN untuk menukar imej kepada penanda diskret Di sini, model VQ-GAN padat yang telah dilatih dengan saiz tampalan 8 × 8 digunakan untuk mengekod imej 256 × 256 ke dalam. 1024 token dan buku kod Saiznya ialah 16512.
Kemudian nyatakan setiap label piksel (termasuk kedalaman, permukaan normal dan topeng segmentasi binari) sebagai imej RGB.
Audio
U-IO 2 mengekod sehingga 4.08 saat audio ke dalam spektrogram, kemudian menggunakan penukar spektrogram audio terlatih (AST) untuk mengekod spektrogram dan menggabungkan ciri-ciri lapisan kedua AST dan gunakan lapisan linear untuk membina pembenaman input, sama seperti imej ViT.
Apabila menjana audio, gunakan ViT-VQGAN untuk menukar audio kepada token diskret Saiz tampalan model ialah 8 × 8, dan spektrogram 256 × 128 dikodkan kepada 512 token Saiz buku kod ialah 8196.
Imej dan Sejarah Audio
Model ini membenarkan sehingga empat segmen imej dan audio tambahan disediakan sebagai input, elemen ini juga dikodkan menggunakan ViT atau AST, dan seterusnya menggunakan resampler perceptron, ciri-cirinya lebih lanjut dimampatkan ke dalam nombor Bawah (32 untuk imej dan 16 untuk audio).
Ini mengurangkan panjang jujukan dengan ketara dan membolehkan model meneliti imej atau klip audio secara terperinci sambil menggunakan elemen daripada sejarah sebagai konteks.
Penyelidik telah memerhatikan bahawa semasa kami menyepadukan mod lain, pelaksanaan standard selepas menggunakan U-IO membawa kepada latihan yang semakin tidak stabil. Seperti yang ditunjukkan dalam (a) dan (b) di bawah, latihan hanya pada penjanaan imej (lengkung hijau) membawa kepada kehilangan yang stabil dan penumpuan norma kecerunan. Memperkenalkan gabungan tugasan imej dan teks (lengkung oren) sedikit meningkatkan norma kecerunan berbanding modaliti tunggal, tetapi kekal stabil. Walau bagaimanapun, termasuk modaliti video (lengkung biru) menghasilkan peningkatan tanpa had bagi norma kecerunan. Seperti yang ditunjukkan dalam (c) dan (d) rajah, apabila versi XXL model dilatih pada semua modaliti, kerugian meletup selepas 350k langkah, dan ketepatan ramalan penanda seterusnya muncul pada 400k langkah jatuh. Untuk menyelesaikan masalah ini, penyelidik membuat pelbagai perubahan seni bina: Gunakan Putaran Position Embedding (RoPE) pada setiap lapisan Transformer. Untuk modaliti bukan teks, RoPE dilanjutkan ke lokasi 2D apabila modaliti imej dan audio disertakan, LayerNorm digunakan pada Q dan K sebelum pengiraan perhatian produk titik. Selain itu, menggunakan resampler perceptron, setiap bingkai imej dan klip audio dimampatkan ke dalam bilangan token tetap, dan menggunakan perhatian kosinus berskala untuk menggunakan normalisasi yang lebih ketat dalam perceptron, yang merupakan kereta api yang stabil dengan ketara. Untuk mengelakkan ketidakstabilan berangka, logaritma perhatian float32 juga didayakan, dan ViT dan AST dibekukan semasa pra-latihan dan diperhalusi pada akhir pelarasan arahan. Rajah di atas menunjukkan bahawa walaupun terdapat kepelbagaian modaliti input dan output, kehilangan pra-latihan model adalah stabil. Artikel ini mengikut paradigma UL2. Untuk sasaran imej dan audio, dua paradigma serupa ditakrifkan di sini: [R]: menutup topeng, menutup secara rawak x% daripada imej input atau ciri tampung audio dan membiarkan model membinanya semula [S] : Memerlukan model untuk menjana modaliti sasaran di bawah keadaan modal input lain. Semasa latihan, teks input awalan dengan penanda modal ([Teks], [Imej], atau [Audio]) dan penanda paradigma ([R], [S] atau [X]) untuk menunjukkan tugas , dan gunakan pelekat dinamik untuk autoregresi. Seperti yang ditunjukkan dalam rajah di atas, satu masalah dengan imej dan audio masking denoising ialah kebocoran maklumat di bahagian penyahkod. Penyelesaian di sini adalah untuk menutup token dalam penyahkod (melainkan meramalkan token ini), yang tidak mengganggu ramalan sebab-akibat sambil menghapuskan kebocoran data. Latihan pada sejumlah besar data berbilang modal akan menghasilkan panjang jujukan yang sangat berubah-ubah untuk input dan output penukar. Pembungkusan digunakan di sini untuk menyelesaikan masalah ini: teg untuk berbilang contoh dimasukkan ke dalam urutan, dan perhatian dilindungi untuk menghalang penukar daripada terlibat silang antara contoh. Semasa latihan, algoritma heuristik digunakan untuk menyusun semula data yang distrim ke model supaya sampel panjang dipadankan dengan sampel pendek yang boleh dibungkus. Pembungkusan dinamik artikel ini meningkatkan daya pengeluaran latihan hampir 4 kali ganda. Penalaan arahan berbilang modal ialah proses utama untuk melengkapkan model dengan kemahiran dan keupayaan berbeza untuk pelbagai modaliti, malah menyesuaikan diri dengan arahan baharu dan unik. Penyelidik membina set data penalaan arahan berbilang mod dengan menggabungkan pelbagai set set data dan tugasan yang diselia. Taburan data penalaan arahan ditunjukkan dalam rajah di atas. Secara keseluruhan, campuran penalaan arahan terdiri daripada 60% data pembayang, 30% data yang diwarisi daripada pra-latihan (untuk mengelakkan pelupaan bencana), 6% data penambahan tugasan yang dibina menggunakan sumber data sedia ada dan 4% Teks bentuk bebas (untuk mendayakan sembang -balas seperti).
Seni bina model dan teknologi untuk latihan yang stabil
Objektif latihan pelbagai mod
Pengoptimuman Kecekapan
Penalaan Arahan
Atas ialah kandungan terperinci Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
