Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual-AI-php.cn

Rumah

Peranti teknologi

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 06, 2023 pm 02:45 PM

data kereta api

Transformer pada asalnya direka untuk tugas pemprosesan bahasa semula jadi, tetapi kini telah digunakan secara meluas dalam tugas penglihatan. Visual Transformer telah menunjukkan ketepatan yang sangat baik dalam pelbagai tugas pengecaman visual, dan mencapai prestasi semasa terbaik dalam tugas seperti klasifikasi imej, klasifikasi video dan pengesanan objek

Kelemahan utama Visual Transformer ialah kos pengiraan yang tinggi. Rangkaian konvolusi biasa (CNN) memerlukan berpuluh-puluh GFlop setiap imej, manakala Transformer visual selalunya memerlukan susunan magnitud yang lebih tinggi, mencecah ratusan GFlop setiap imej. Apabila memproses video, masalah ini lebih teruk kerana jumlah data yang besar. Kos pengiraan yang tinggi menyukarkan untuk menggunakan Transformer visual pada peranti yang mempunyai sumber terhad atau keperluan kependaman yang ketat, yang mengehadkan senario aplikasi teknologi ini, jika tidak, kami akan mempunyai beberapa aplikasi yang menarik.

Dalam kertas kerja baru-baru ini, tiga penyelidik dari University of Wisconsin-Madison, Matthew Dutson, Yin Li, dan Mohit Gupta, mula-mula mencadangkan bahawa redundansi sementara antara input berikutnya boleh digunakan untuk mengurangkan Transformer visual dalam aplikasi video . Mereka juga mengeluarkan kod model, yang termasuk modul PyTorch yang digunakan untuk membina Transformer Eventful.

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Alamat kertas: https://arxiv.org/pdf/2308.13494.pdf
Alamat projek: http://transformersAlamat projek: http://transformers

Lewahan sementara: Mula-mula andaikan terdapat Transformer visual yang boleh memproses jujukan video bingkai demi bingkai atau klip video mengikut klip video. Transformer ini mungkin model pemprosesan bingkai demi bingkai yang ringkas (seperti pengesan objek) atau langkah perantaraan dalam model spatiotemporal (seperti langkah pertama model terurai ViViT). Tidak seperti Transformer pemprosesan bahasa, di mana satu input adalah urutan yang lengkap, di sini penyelidik menyediakan berbilang input berbeza (bingkai atau klip video) kepada Transformer dari semasa ke semasa.

Video semulajadi mengandungi redundansi temporal yang ketara, iaitu perbezaan antara bingkai berikutnya adalah kecil. Walau bagaimanapun, rangkaian dalam, termasuk Transformers, biasanya mengira setiap bingkai "dari awal." Kaedah ini membuang maklumat berpotensi berkaitan yang diperoleh melalui penaakulan sebelumnya, yang sangat membazir. Oleh itu, ketiga-tiga penyelidik ini tertanya-tanya: Bolehkah hasil pengiraan pertengahan langkah pengiraan sebelumnya digunakan semula untuk meningkatkan kecekapan pemprosesan jujukan berlebihan?

Inferens Suaian: Untuk Transformer visual, dan rangkaian dalam secara umum, kos inferens selalunya ditentukan oleh seni bina. Walau bagaimanapun, dalam aplikasi sebenar, sumber yang tersedia mungkin berubah dari semasa ke semasa, contohnya disebabkan oleh proses bersaing atau perubahan kuasa. Akibatnya, mungkin terdapat keperluan untuk mengubah suai kos pengiraan model pada masa jalan. Salah satu matlamat reka bentuk utama yang ditetapkan oleh penyelidik dalam usaha baharu ini ialah kebolehsuaian—pendekatan mereka membenarkan kawalan masa nyata ke atas kos pengiraan. Rajah 1 di bawah (bawah) memberikan contoh mengubah suai belanjawan pengiraan semasa pemprosesan video.

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Transformer berasaskan peristiwa: Kertas kerja ini mencadangkan Transformer berasaskan peristiwa yang boleh memanfaatkan lebihan sementara antara input untuk mencapai penaakulan yang cekap dan adaptif. Istilah peristiwa diilhamkan oleh kamera acara, penderia yang merakam imej secara diskret apabila adegan berubah. Transformer berasaskan peristiwa menjejaki perubahan peringkat token dari semasa ke semasa dan secara terpilih mengemas kini perwakilan token dan peta perhatian diri pada setiap langkah masa. Modul Transformer berasaskan peristiwa mengandungi modul gating untuk mengawal bilangan token kemas kini Kaedah ini sesuai untuk model sedia ada (biasanya tanpa latihan semula) dan sesuai untuk banyak tugas pemprosesan video. Para penyelidik juga menjalankan eksperimen untuk membuktikan bahawa keputusan menunjukkan bahawa Transformer Eventful boleh digunakan pada model sedia ada yang terbaik sambil mengurangkan kos pengiraan dan mengekalkan ketepatan asal

Eventful Transformer

Kandungan ditulis semula: Matlamat untuk penyelidikan ini adalah untuk mempercepatkan Transformers visual untuk pengecaman video. Dalam senario ini, Transformer visual perlu berulang kali memproses bingkai video atau klip video Tugas khusus termasuk pengesanan sasaran video dan pengecaman tindakan video. Idea utama yang dicadangkan adalah untuk mengeksploitasi lebihan sementara, iaitu, menggunakan semula hasil pengiraan daripada langkah masa sebelumnya. Berikut akan menerangkan secara terperinci cara mengubah suai modul Transformer untuk mempunyai keupayaan untuk melihat lebihan masa

token gating: mengesan redundansi

#🎜🎜🎜 bahagian ini akan mulakan ##🎜 modul baharu yang dicadangkan oleh penyelidik: gerbang token dan penimbal token. Modul ini membolehkan model mengenal pasti dan mengemas kini token yang telah berubah dengan ketara sejak modul Gerbang terakhir: Gerbang ini memilih bahagian M daripada token input N dan menghantarnya ke lapisan Hilir melakukan pengiraan. Ia mengekalkan set token rujukan dalam ingatannya, dilambangkan sebagai u. Vektor rujukan ini mengandungi nilai setiap token pada masa kemas kini terbaharunya. Pada setiap langkah masa, setiap token dibandingkan dengan nilai rujukannya yang sepadan dan token yang jauh berbeza daripada nilai rujukan dikemas kini.

Sekarang tandakan input semasa pintu pagar sebagai c. Pada setiap langkah masa, proses berikut diikuti untuk mengemas kini status get dan menentukan outputnya (lihat Rajah 2 di bawah): 🎜#1 Kira jumlah ralat e = u − c.

2 Gunakan strategi pemilihan untuk ralat e. Strategi pemilihan mengembalikan topeng binari m (bersamaan dengan senarai indeks token), menunjukkan token M yang perlu dikemas kini.

3 Ekstrak token yang dipilih oleh strategi di atas. Ini diterangkan dalam Rajah 2 sebagai produk c × m dalam amalan ia dicapai dengan melakukan operasi "kumpul" di sepanjang paksi pertama c. Token yang dikumpul direkodkan di sini sebagai

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

, iaitu keluaran gerbang.

4. Kemas kini token rujukan kepada token yang dipilih. Rajah 2 menerangkan proses ini sebagai

; operasi yang digunakan dalam amalan ialah "scatter". Dalam langkah kali pertama, get mengemas kini semua token (memulakan u ← c dan mengembalikan c˜ = c).

Modul penimbal: Modul penimbal mengekalkan tensor keadaan Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual , yang menjejaki setiap token input # Bila 🎜🎜 🎜🎜#

, penimbal menyebarkan token dari f (c˜) ke kedudukan sepadannya dalam b. Ia kemudian mengembalikan b yang dikemas kini sebagai outputnya, lihat Rajah 3 di bawah. Para penyelidik memasangkan setiap pintu masuk dengan penampan di belakangnya. Berikut ialah corak penggunaan mudah: output get Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

dihantar ke siri operasi f (c˜) untuk setiap token; Tensor yang terhasil

disalurkan kepada penimbal yang akan memulihkan bentuk penuh. Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Bina semula Transformer dengan lebihan yang dirasakan Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual #🎜🎜🎜 untuk #🎜🎜 Oleh kerana lebihan masa di atas, pengkaji mencadangkan pelan pengubahsuaian kepada modul Transformer. Rajah 4 di bawah menunjukkan reka bentuk modul Eventful Transformer. Kaedah ini boleh mempercepatkan operasi pada token individu (seperti MLP) serta pendaraban nilai kunci pertanyaan dan nilai perhatian.

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Dalam modul Transformer Operasi untuk setiap token, banyak operasi adalah untuk setiap token, yang bermaksud ia tidak melibatkan pertukaran maklumat antara token, termasuk transformasi linear dalam MLP dan MSA. Untuk menjimatkan kos pengiraan, para penyelidik menyatakan bahawa operasi berorientasikan token pada token yang tidak dipilih oleh pintu masuk boleh dilangkau. Disebabkan oleh kebebasan antara token, ini tidak mengubah hasil operasi pada token yang dipilih. Lihat Rajah 3.

Secara khusus, penyelidik menggunakan jujukan berterusan sepasang penimbal gerbang semasa memproses operasi setiap token, termasuk transformasi W_qkv, transformasi W_p dan MLP. Perlu diingat bahawa sebelum melangkau sambungan, mereka juga menambah penimbal untuk memastikan bahawa token dua operan tambahan diselaraskan dengan betul Kos operasi untuk setiap token adalah berkadar dengan bilangan token. Dengan mengurangkan nombor daripada N kepada M, kos operasi hiliran setiap token akan dikurangkan sebanyak N/M kali

Sekarang mari kita lihat hasil produk query-key-value B = q k^T

Rajah 5 di bawah menunjukkan kaedah untuk mengemas kini subset elemen secara jarang dalam produk nilai kunci pertanyaan B.

Kos keseluruhan kemas kini ini ialah 2NMD, berbanding kos pengkomputeran B dari awal ialah N^2D. Ambil perhatian bahawa kos kaedah baharu adalah berkadar dengan M, bilangan token yang dipilih. Apabila M

Perhatian - produk nilai: Penyelidik mencadangkan kaedah berdasarkan kenaikan Δ Kemas kini strategi.

Rajah 6 menunjukkan kaedah yang baru dicadangkan untuk mengira dengan cekap tiga sebutan tambahan

Apabila M kurang daripada separuh N, jumlah pengiraan boleh dikurangkan Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Reka bentuk penting Eventful Transformer ialah strategi pemilihan tokennya. Memandangkan tensor ralat gerbang e, matlamat dasar sedemikian adalah untuk menghasilkan topeng m yang menunjukkan token yang perlu dikemas kini. Strategi khusus termasuk:

Strategi teratas: Strategi ini memilih token r dengan ralat terbesar e (norma L2 digunakan di sini). Strategi ambang: Strategi ini akan memilih semua token yang norma ralatnya e melebihi ambang h

Kandungan yang ditulis semula: Strategi lain: Menggunakan strategi pemilihan token yang lebih kompleks dan canggih boleh mencapai hasil yang lebih baik Tukar ganti ketepatan-kos , cth. rangkaian dasar ringan boleh digunakan untuk mempelajari dasar. Walau bagaimanapun, latihan mekanisme membuat keputusan dasar mungkin menghadapi kesukaran kerana topeng binari m biasanya tidak boleh dibezakan. Idea lain ialah menggunakan skor kepentingan sebagai maklumat rujukan untuk pemilihan. Walau bagaimanapun, idea-idea ini masih memerlukan kajian lanjut

Eksperimen

Para penyelidik menjalankan penilaian eksperimen bagi kaedah yang baru dicadangkan, khusus digunakan untuk pengesanan objek video dan tugas pengecaman tindakan video

di bawah Rajah 7. Keputusan eksperimen pengesanan sasaran. di mana paksi positif ialah kadar penjimatan pengiraan dan paksi negatif ialah pengurangan relatif dalam skor mAP50 untuk kaedah baharu. Ia dapat dilihat bahawa kaedah baru mengorbankan sedikit ketepatan sebagai pertukaran untuk penjimatan pengiraan yang ketara.

Rajah 8 di bawah menunjukkan perbandingan kaedah dan keputusan eksperimen ablasi untuk tugas pengesanan sasaran video

Rajah 9 di bawah menunjukkan keputusan eksperimen untuk pengecaman tindakan video Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Dalam Jadual 2 di bawah, keputusan masa (dalam milisaat) ditunjukkan berjalan pada satu CPU (Xeon Silver 4214, 2.2 GHz) dan satu GPU (NVIDIA RTX3090). Dapat diperhatikan bahawa lebihan masa pada GPU membawa peningkatan kelajuan sebanyak 1.74 kali, manakala peningkatan pada CPU mencapai 2.47 kali ganda

Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual

Untuk butiran lanjut teknikal dan hasil eksperimen, sila rujuk kertas asal.

Atas ialah kandungan terperinci Pendekatan yang mengejutkan untuk redundansi temporal: cara baharu untuk mengurangkan kos pengiraan Transformers visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

2 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1663

Tutorial CakePHP

1420

Tutorial Laravel

1315

Tutorial PHP

1266

Tutorial C#

1239

Tunjukkan Lagi

Related knowledge

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Dokumen berbilang modal Alibaba 7B memahami model besar memenangi SOTA baharu Apr 02, 2024 am 11:31 AM

SOTA baharu untuk keupayaan memahami dokumen multimodal! Pasukan Alibaba mPLUG mengeluarkan kerja sumber terbuka terkini mPLUG-DocOwl1.5, yang mencadangkan satu siri penyelesaian untuk menangani empat cabaran utama pengecaman teks imej resolusi tinggi, pemahaman struktur dokumen am, arahan mengikut dan pengenalan pengetahuan luaran. Tanpa berlengah lagi, mari kita lihat kesannya dahulu. Pengecaman satu klik dan penukaran carta dengan struktur kompleks ke dalam format Markdown: Carta gaya berbeza tersedia: Pengecaman dan kedudukan teks yang lebih terperinci juga boleh dikendalikan dengan mudah: Penjelasan terperinci tentang pemahaman dokumen juga boleh diberikan: Anda tahu, "Pemahaman Dokumen " pada masa ini Senario penting untuk pelaksanaan model bahasa yang besar. Terdapat banyak produk di pasaran untuk membantu pembacaan dokumen. Sesetengah daripada mereka menggunakan sistem OCR untuk pengecaman teks dan bekerjasama dengan LLM untuk pemprosesan teks.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

See all articles