Jadual Kandungan
Penalaan Arahan
Rumah Peranti teknologi AI Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Jan 11, 2024 pm 06:21 PM
Model kereta api

Bilakah GPT-5 akan tiba dan apakah keupayaan yang akan ada?

Sebuah model baharu dari Allen Institute for AI memberitahu anda jawapannya.

Unified-IO 2 yang dilancarkan oleh Allen Institute for Artificial Intelligence ialah model pertama yang boleh memproses dan menjana teks, imej, audio, video dan urutan tindakan.

Model AI lanjutan ini dilatih menggunakan berbilion titik data Saiz model hanya 7B, tetapi ia mempamerkan keupayaan berbilang modal yang paling luas setakat ini.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Alamat kertas: https://arxiv.org/pdf/2312.17172.pdf

Jadi, apakah hubungan antara Unified-IO 2 dan GPT-5?

Pada Jun 2022, Allen Institute for Artificial Intelligence melancarkan generasi pertama Unified-IO, menjadi salah satu model berbilang modal yang mampu memproses imej dan bahasa secara serentak.

Pada masa yang sama, OpenAI sedang menguji GPT-4 secara dalaman dan akan mengeluarkannya secara rasmi pada Mac 2023.

Jadi, Unified-IO boleh dilihat sebagai pratonton model AI berskala besar masa hadapan.

OpenAI mungkin menguji GPT-5 secara dalaman dan akan mengeluarkannya dalam beberapa bulan.

Keupayaan yang ditunjukkan kepada kami oleh Unified-IO 2 kali ini juga akan menjadi perkara yang boleh kami nantikan pada tahun baharu:

GPT-5 dan model AI baharu yang lain boleh mengendalikan lebih banyak modaliti, Pembelajaran yang meluas untuk melaksanakan banyak tugas secara tempatan dan pemahaman asas berinteraksi dengan objek dan robot.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Data latihan Unified-IO 2 termasuk: 1 bilion pasangan teks imej, 1 trilion tag teks, 180 juta klip video, 130 juta imej dengan teks, 3 juta aset 3D dan 1 juta jujukan gerakan ejen robot.

Pasukan penyelidik menggabungkan sejumlah lebih daripada 120 set data ke dalam pakej 600 TB yang meliputi 220 tugas visual, bahasa, pendengaran dan motor.

Unified-IO 2 menggunakan seni bina penyahkod pengekod dengan beberapa perubahan untuk menstabilkan latihan dan menggunakan isyarat berbilang modal dengan berkesan.

Model boleh menjawab soalan, menulis teks mengikut arahan dan menganalisis kandungan teks.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Model ini juga boleh mengenal pasti kandungan imej, memberikan penerangan imej, melaksanakan tugas pemprosesan imej dan mencipta imej baharu berdasarkan penerangan teks.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Ia juga boleh menjana muzik atau bunyi berdasarkan penerangan atau arahan, serta menganalisis video dan menjawab soalan tentangnya.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Dengan menggunakan data robot untuk latihan, Unified-IO 2 juga boleh menjana tindakan untuk sistem robot, seperti menukar arahan kepada urutan tindakan untuk robot.

Terima kasih kepada latihan pelbagai modal, ia juga boleh mengendalikan modaliti yang berbeza, contohnya, melabelkan instrumen yang digunakan dalam trek tertentu pada imej.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Unified-IO 2 berprestasi baik pada lebih daripada 35 penanda aras, termasuk penjanaan dan pemahaman imej, pemahaman bahasa semula jadi, pemahaman video dan audio serta manipulasi robot.

Dalam kebanyakan tugas, ia adalah sebaik atau lebih baik daripada model khusus.

Unified-IO 2 mencapai markah tertinggi setakat ini pada penanda aras GRIT untuk tugasan imej (GRIT digunakan untuk menguji cara model mengendalikan hingar imej dan isu lain).

Para penyelidik kini merancang untuk melanjutkan lagi Unified-IO 2, meningkatkan kualiti data dan mengubah model penyahkod pengekod kepada seni bina model penyahkod standard industri.

Unified-IO 2

Unified-IO 2 ialah model berbilang mod autoregresif pertama yang mampu memahami dan menjana imej, teks, audio dan gerakan.

Untuk menyatukan modaliti yang berbeza, penyelidik melabelkan input dan output (imej, teks, audio, tindakan, kotak sempadan, dll.) ke dalam ruang semantik dikongsi dan kemudian menggunakan model pengubah pengekod-penyahkod tunggal Memprosesnya.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Disebabkan jumlah data yang banyak digunakan untuk melatih model dan datang daripada pelbagai modaliti yang berbeza, penyelidik telah menggunakan beberapa siri teknik untuk menambah baik keseluruhan proses latihan.

Untuk memudahkan pembelajaran isyarat penyeliaan sendiri dengan berkesan merentas pelbagai modaliti, penyelidik membangunkan hibrid multimodal baru bagi sasaran denoiser yang menggabungkan denoiser silang mod dan penjanaan.

Pembungkusan dinamik juga telah dibangunkan untuk meningkatkan daya pengeluaran latihan sebanyak 4x untuk mengendalikan urutan yang sangat berubah-ubah.

Untuk mengatasi isu kestabilan dan kebolehskalaan dalam latihan, penyelidik membuat perubahan seni bina pada resampler perceptron, termasuk pembenaman putaran 2D, penormalan QK dan mekanisme perhatian kosinus berskala.

Untuk pelarasan arahan, pastikan setiap misi mempunyai gesaan yang jelas, sama ada menggunakan misi sedia ada atau membuat yang baharu. Tugasan terbuka juga disertakan, dan tugasan sintetik dicipta untuk corak yang kurang biasa untuk meningkatkan kepelbagaian tugas dan pengajaran.

Nyatakan Tugas Perwakilan Data Multimodal ke dalam urutan token dalam ruang perwakilan bersama, termasuk aspek berikut:

Text, struktur jarang dan operasi

Text input dan output adalah token menggunakan pengekodan pasangan bait dalam LLaMA, struktur jarang seperti kotak sempadan, titik kekunci dan pose kamera didiskrisikan dan kemudian dikodkan menggunakan 1000 token khas yang ditambahkan pada perbendaharaan kata.

Mata dikodkan menggunakan dua penanda (x, y), kotak dikodkan dengan urutan empat penanda (kiri atas dan kanan bawah), dan kuboid 3D diwakili dengan 12 penanda (pusat unjuran pengekodan, kedalaman maya, pasangan (bilangan saiz kotak yang dinormalkan, dan putaran sepusat berterusan).

Untuk tugasan yang terkandung, tindakan robot diskret dijana sebagai arahan teks (cth., "maju ke hadapan"). Tag khas digunakan untuk mengekod keadaan robot (seperti kedudukan dan putaran).

Imej dan Struktur Padat

Imej dikodkan menggunakan pengubah visual terlatih (ViT). Ciri tampalan lapisan kedua dan kedua terakhir ViT digabungkan untuk menangkap maklumat visual peringkat rendah dan tinggi.

Apabila menjana imej, gunakan VQ-GAN untuk menukar imej kepada penanda diskret Di sini, model VQ-GAN padat yang telah dilatih dengan saiz tampalan 8 × 8 digunakan untuk mengekod imej 256 × 256 ke dalam. 1024 token dan buku kod Saiznya ialah 16512.

Kemudian nyatakan setiap label piksel (termasuk kedalaman, permukaan normal dan topeng segmentasi binari) sebagai imej RGB.

Audio

U-IO 2 mengekod sehingga 4.08 saat audio ke dalam spektrogram, kemudian menggunakan penukar spektrogram audio terlatih (AST) untuk mengekod spektrogram dan menggabungkan ciri-ciri lapisan kedua AST dan gunakan lapisan linear untuk membina pembenaman input, sama seperti imej ViT.

Apabila menjana audio, gunakan ViT-VQGAN untuk menukar audio kepada token diskret Saiz tampalan model ialah 8 × 8, dan spektrogram 256 × 128 dikodkan kepada 512 token Saiz buku kod ialah 8196.

Imej dan Sejarah Audio

Model ini membenarkan sehingga empat segmen imej dan audio tambahan disediakan sebagai input, elemen ini juga dikodkan menggunakan ViT atau AST, dan seterusnya menggunakan resampler perceptron, ciri-cirinya lebih lanjut dimampatkan ke dalam nombor Bawah (32 untuk imej dan 16 untuk audio).

Ini mengurangkan panjang jujukan dengan ketara dan membolehkan model meneliti imej atau klip audio secara terperinci sambil menggunakan elemen daripada sejarah sebagai konteks.

Seni bina model dan teknologi untuk latihan yang stabil

Penyelidik telah memerhatikan bahawa semasa kami menyepadukan mod lain, pelaksanaan standard selepas menggunakan U-IO membawa kepada latihan yang semakin tidak stabil.

Seperti yang ditunjukkan dalam (a) dan (b) di bawah, latihan hanya pada penjanaan imej (lengkung hijau) membawa kepada kehilangan yang stabil dan penumpuan norma kecerunan.

Memperkenalkan gabungan tugasan imej dan teks (lengkung oren) sedikit meningkatkan norma kecerunan berbanding modaliti tunggal, tetapi kekal stabil. Walau bagaimanapun, termasuk modaliti video (lengkung biru) menghasilkan peningkatan tanpa had bagi norma kecerunan.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Seperti yang ditunjukkan dalam (c) dan (d) rajah, apabila versi XXL model dilatih pada semua modaliti, kerugian meletup selepas 350k langkah, dan ketepatan ramalan penanda seterusnya muncul pada 400k langkah jatuh.

Untuk menyelesaikan masalah ini, penyelidik membuat pelbagai perubahan seni bina:

Gunakan Putaran Position Embedding (RoPE) pada setiap lapisan Transformer. Untuk modaliti bukan teks, RoPE dilanjutkan ke lokasi 2D apabila modaliti imej dan audio disertakan, LayerNorm digunakan pada Q dan K sebelum pengiraan perhatian produk titik.

Selain itu, menggunakan resampler perceptron, setiap bingkai imej dan klip audio dimampatkan ke dalam bilangan token tetap, dan menggunakan perhatian kosinus berskala untuk menggunakan normalisasi yang lebih ketat dalam perceptron, yang merupakan kereta api yang stabil dengan ketara.

Untuk mengelakkan ketidakstabilan berangka, logaritma perhatian float32 juga didayakan, dan ViT dan AST dibekukan semasa pra-latihan dan diperhalusi pada akhir pelarasan arahan.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Rajah di atas menunjukkan bahawa walaupun terdapat kepelbagaian modaliti input dan output, kehilangan pra-latihan model adalah stabil.

Objektif latihan pelbagai mod

Artikel ini mengikut paradigma UL2. Untuk sasaran imej dan audio, dua paradigma serupa ditakrifkan di sini:

[R]: menutup topeng, menutup secara rawak x% daripada imej input atau ciri tampung audio dan membiarkan model membinanya semula

[S] : Memerlukan model untuk menjana modaliti sasaran di bawah keadaan modal input lain.

Semasa latihan, teks input awalan dengan penanda modal ([Teks], [Imej], atau [Audio]) dan penanda paradigma ([R], [S] atau [X]) untuk menunjukkan tugas , dan gunakan pelekat dinamik untuk autoregresi.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Seperti yang ditunjukkan dalam rajah di atas, satu masalah dengan imej dan audio masking denoising ialah kebocoran maklumat di bahagian penyahkod.

Penyelesaian di sini adalah untuk menutup token dalam penyahkod (melainkan meramalkan token ini), yang tidak mengganggu ramalan sebab-akibat sambil menghapuskan kebocoran data.

Pengoptimuman Kecekapan

Latihan pada sejumlah besar data berbilang modal akan menghasilkan panjang jujukan yang sangat berubah-ubah untuk input dan output penukar.

Pembungkusan digunakan di sini untuk menyelesaikan masalah ini: teg untuk berbilang contoh dimasukkan ke dalam urutan, dan perhatian dilindungi untuk menghalang penukar daripada terlibat silang antara contoh.

Semasa latihan, algoritma heuristik digunakan untuk menyusun semula data yang distrim ke model supaya sampel panjang dipadankan dengan sampel pendek yang boleh dibungkus. Pembungkusan dinamik artikel ini meningkatkan daya pengeluaran latihan hampir 4 kali ganda.

Penalaan Arahan

Penalaan arahan berbilang modal ialah proses utama untuk melengkapkan model dengan kemahiran dan keupayaan berbeza untuk pelbagai modaliti, malah menyesuaikan diri dengan arahan baharu dan unik.

Penyelidik membina set data penalaan arahan berbilang mod dengan menggabungkan pelbagai set set data dan tugasan yang diselia.

Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5

Taburan data penalaan arahan ditunjukkan dalam rajah di atas. Secara keseluruhan, campuran penalaan arahan terdiri daripada 60% data pembayang, 30% data yang diwarisi daripada pra-latihan (untuk mengelakkan pelupaan bencana), 6% data penambahan tugasan yang dibina menggunakan sumber data sedia ada dan 4% Teks bentuk bebas (untuk mendayakan sembang -balas seperti).

Atas ialah kandungan terperinci Pratonton GPT-5! Allen Institute for Artificial Intelligence mengeluarkan model multi-modal terkuat untuk meramalkan keupayaan baharu GPT-5. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles