Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.-AI-php.cn

Rumah

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 04, 2023 am 11:50 AM

rangkaian Model gan

Dengan keluaran DALL-E 2 oleh OpenAI, model autoregresif dan resapan telah menjadi standard baharu untuk model generatif berskala besar semalaman, Generative Adversarial Networks (GAN) telah menjadi pilihan arus perdana dan diperoleh daripada StyleGAN dan teknologi lain.

Di sebalik populariti AIGC, dari sudut teknikal, seni bina model penjanaan imej telah mengalami perubahan yang besar.

Dengan keluaran DALL-E 2 oleh OpenAI, model autoregresif dan resapan telah menjadi standard baharu untuk model generatif berskala besar semalaman telah Mereka semua adalah pilihan arus perdana dan telah memperoleh teknologi seperti StyleGAN.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Peralihan seni bina daripada GAN kepada model penyebaran juga menimbulkan persoalan: bolehkah skala model GAN ditingkatkan? , sebagai contoh, bolehkah kami meningkatkan lagi prestasi dalam set data besar seperti LAION?

Baru-baru ini, penyelidik dari Universiti Sains dan Teknologi Pohang (Korea Selatan), Carnegie Mellon University, dan Adobe Research membangkitkan isu ketidakstabilan yang disebabkan oleh peningkatan kapasiti seni bina StyleGAN seni bina rangkaian permusuhan generatif baharu, GigaGAN, mematahkan had saiz model dan menunjukkan bahawa GAN masih boleh kompeten sebagai model sintesis teks ke imej.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Pautan kertas: https://arxiv.org/abs/2303.05511

Pautan projek: https://mingukkang. github.io/GigaGAN/

GigaGAN mempunyai tiga kelebihan utama.

1. Ia lebih pantas semasa inferens Berbanding dengan Stable Diffusion-v1.5 dengan tahap parameter yang sama, kelajuan penjanaan pada resolusi 512 dipendekkan daripada 2.9 saat kepada 0.13 saat. .

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

2. Imej resolusi tinggi boleh disintesis, contohnya, imej 16 megapiksel boleh disintesis dalam 3.66 detik.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

3. Menyokong pelbagai aplikasi penyuntingan ruang terpendam, seperti interpolasi pendam, pencampuran gaya dan operasi aritmetik vektor.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Adakah GAN telah mencapai hadnya?

Satu siri model yang dikeluarkan baru-baru ini, seperti DALL-E 2, Imagen, Parti dan Stable Diffusion, telah memulakan era baharu penjanaan imej, mencapai tahap kualiti imej dan fleksibiliti model yang belum pernah terjadi sebelumnya.

Paradigma yang dominan pada masa ini "model resapan" dan "model autoregresif" kedua-duanya bergantung pada pedang bermata dua penaakulan berulang, kerana kaedah lelaran boleh melakukan latihan yang stabil dengan matlamat mudah, tetapi dalam penaakulan Kos pengiraan yang lebih tinggi akan ditanggung dalam proses tersebut.

Sebaliknya, Generative Adversarial Network (GAN) hanya memerlukan satu hantaran ke hadapan untuk menjana imej, jadi ia sememangnya lebih cekap.

Walaupun model GAN mendominasi "era sebelumnya" pemodelan generatif, disebabkan ketidakstabilan dalam proses latihan, melanjutkan GAN memerlukan pelarasan yang teliti terhadap struktur rangkaian dan pertimbangan latihan, jadi walaupun GAN sangat baik dalam memodelkan kategori objek tunggal atau berbilang, menskalakan kepada set data yang kompleks (apatah lagi penjanaan objek dunia terbuka) masih mencabar.

Jadi pada masa ini model yang sangat besar, data dan sumber pengkomputeran tertumpu terutamanya pada model penyebaran dan autoregresif.

Dalam kerja ini, penyelidik terutamanya menangani soalan berikut:

Bolehkah GAN terus berkembang dan berpotensi mendapat manfaat daripada sumber ini? Atau adakah GAN sudah mencapai hadnya? Apakah yang menghalang pengembangan GAN selanjutnya? Bolehkah halangan ini diatasi?

Latihan Stable GAN

Para penyelidik mula-mula menjalankan eksperimen dengan StyleGAN2 dan memerhatikan bahawa hanya mengembangkan rangkaian tulang belakang akan membawa kepada latihan yang tidak stabil Selepas mengenal pasti beberapa isu utama Akhirnya, teknik untuk menstabilkan latihan sambil meningkatkan kapasiti model dicadangkan.

Pertama, kembangkan kapasiti penjana secara berkesan dengan mengekalkan sekumpulan penapis dan mengambil gabungan linear sampel tertentu.

Menyesuaikan beberapa teknik yang biasa digunakan dalam konteks model penyebaran dan mengesahkan bahawa ia boleh membawa peningkatan prestasi yang serupa kepada GAN, seperti menggabungkan mekanisme perhatian diri (imej sahaja) dan Perhatian silang (teks imej) yang dijalin dengan lapisan konvolusi meningkatkan prestasi.

Selain itu, penyelidik memperkenalkan semula latihan berskala dan menemui skema baharu yang boleh meningkatkan penjajaran teks imej dan menjana butiran frekuensi rendah dalam output.

Latihan berbilang skala membolehkan penjana berasaskan GAN menggunakan parameter dalam blok resolusi rendah dengan lebih cekap, menghasilkan penjajaran teks imej dan kualiti imej yang lebih baik.

Penjana

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Penjana GigaGAN terdiri daripada cawangan pengekodan teks, rangkaian pemetaan gaya dan rangkaian sintesis berbilang skala), ditambah dengan perhatian yang stabil dan pemilihan kernel adaptif.

Dalam cawangan pengekodan teks, model CLIP terlatih dan lapisan perhatian yang dipelajari T mula-mula digunakan untuk mengekstrak pembenaman teks, dan kemudian proses pembenaman dihantar ke rangkaian pemetaan gaya M, Jana vektor gaya w

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

serupa dengan StyleGAN Rangkaian sintesis menggunakan pengekodan gaya sebagai modulasi dan pembenaman teks sebagai perhatian . Hasilkan piramid imej, dan atas dasar ini, perkenalkan sampel algoritma pemilihan kernel adaptif untuk mencapai pemilihan adaptif kernel convolution berdasarkan keadaan teks input.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Pendiskriminasi

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Sama seperti penjana, diskriminator GigaGAN terdiri daripada dua cabang, yang digunakan untuk memproses keadaan imej dan teks masing-masing.

Cawangan teks mengendalikan cawangan teks yang serupa dengan penjana; cawangan imej menerima piramid imej sebagai input dan membuat ramalan bebas untuk setiap skala imej.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Beberapa fungsi kehilangan tambahan diperkenalkan dalam formula untuk menggalakkan penumpuan pantas.

Hasil Eksperimen

Penilaian yang sistematik dan terkawal pada tugas sintesis imej teks berskala besar adalah sukar kerana kebanyakan model sedia ada tidak tersedia secara terbuka, walaupun jika kod latihan tersedia, kos melatih model baharu dari awal akan menjadi mahal.

Para penyelidik memilih untuk membandingkan dengan Imagen, Model Resapan Terpendam (LDM), Resapan Stabil dan Parti dalam eksperimen mereka, sambil mengakui bahawa terdapat perbezaan yang ketara dalam set data latihan, nombor lelaran, saiz kelompok, dan saiz model terdapat perbezaan yang ketara.

Untuk penunjuk penilaian kuantitatif, Frechet Inception Distance (FID) digunakan terutamanya untuk mengukur ketulenan pengedaran output, dan skor CLIP digunakan untuk menilai penjajaran teks imej.

Lima eksperimen berbeza telah dijalankan dalam kertas:

1 Tunjukkan keberkesanan kaedah yang dicadangkan dengan menggabungkan setiap komponen teknikal secara beransur-ansur; . sambil menjana keputusan ratusan kali lebih pantas daripada model resapan atau autoregresif; 🎜>

4. Mengesahkan kelebihan upsampler GigaGAN berbanding upsampler lain dalam tugasan resolusi super bersyarat dan tanpa syarat; Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

5 Keputusan menunjukkan bahawa GAN berskala besar masih menikmati operasi ruang terpendam GAN yang berterusan dan terurai, membolehkan mod penyuntingan imej baharu. Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Selepas melaraskan parameter, penyelidik mencapai kestabilan dan kebolehpercayaan pada set data berskala besar seperti Latihan LAION2B-en daripada GAN berbilion parameter lanjutan (GigaGAN). Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Dan kaedah ini menggunakan pendekatan berbilang peringkat, mula-mula menjana pada 64 × 64, dan kemudian meningkatkan pensampelan kepada 512 × 512, kedua-dua rangkaian adalah modular dan cukup berkuasa untuk digunakan secara plug-and-play. Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Hasilnya menunjukkan bahawa rangkaian pensampelan GAN berhawa teks boleh berfungsi sebagai pensampel tinggi yang cekap dan berkualiti tinggi untuk model resapan asas (seperti DALL-E 2) walaupun tidak pernah melihat imej model resapan semasa latihan.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Bersama-sama, keputusan ini menjadikan GigaGAN jauh mengatasi model GAN sebelumnya, 36 kali lebih besar daripada StyleGAN2, 6 kali lebih besar daripada StyleGAN-XL dan XMC-GAN.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Walaupun volum 1 bilion parameter GiGAN masih lebih rendah daripada model sintetik terbesar yang dikeluarkan baru-baru ini, seperti Imagen (3B) , DALL-E 2 (5.5B) dan Parti (20B), tetapi tiada ketepuan jisim berkenaan dengan saiz model masih belum diperhatikan.

GigaGAN mencapai FID sifar 9.09 pada set data COCO2014, yang lebih rendah daripada FID DALL-E 2, Parti-750M dan Stable Diffusion

Senario aplikasi

Interpolasi segera

GigaGAN boleh menginterpolasi dengan lancar antara gesaan Empat penjuru dalam rajah di bawah dibentuk oleh penjanaan kod Terpendam yang sama , tetapi dengan gesaan teks yang berbeza.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Campuran segera terurai

GigaGAN dikhaskan Ruang pendam yang dipisahkan membolehkan penggabungan gaya kasar satu sampel dengan gaya halus sampel lain, dan GigaGAN boleh mengawal gaya secara langsung melalui pembayang teks.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Pertukaran sytle kasar ke halus

Berasaskan GAN seni bina model mengekalkan ruang terpendam yang diasingkan, membolehkan gaya kasar satu sampel dicampur dengan gaya halus sampel lain.

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Rujukan:

https://mingukkang.github.io/GigaGAN/

Atas ialah kandungan terperinci Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Assassin's Creed Shadows - Cara Mencari Orang Panda

1 bulan yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7642

Tutorial CakePHP

1392

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

150

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apakah yang berlaku apabila rangkaian tidak dapat menyambung ke wifi? Apr 03, 2024 pm 12:11 PM

1. Semak kata laluan wifi: Pastikan kata laluan wifi yang anda masukkan adalah betul dan perhatikan sensitiviti huruf besar. 2. Sahkan sama ada wifi berfungsi dengan betul: Semak sama ada penghala wifi berjalan seperti biasa Anda boleh menyambungkan peranti lain ke penghala yang sama untuk menentukan sama ada masalah terletak pada peranti. 3. Mulakan semula peranti dan penghala: Kadangkala, terdapat kerosakan atau masalah rangkaian dengan peranti atau penghala, dan memulakan semula peranti dan penghala boleh menyelesaikan masalah. 4. Semak tetapan peranti: Pastikan fungsi wayarles peranti dihidupkan dan fungsi wifi tidak dinyahdayakan.

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

See all articles

Model GAN ​​berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.

Alat AI Hot

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

Artikel Panas

Alat panas

Notepad++7.3.1

SublimeText3 versi Cina

Hantar Studio 13.0.1

Dreamweaver CS6

SublimeText3 versi Mac

Topik panas

Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.