


Model Difusi yang popular baru-baru ini, ulasan pertama model penjanaan resapan!
Semakan ini (Model Penyebaran: Tinjauan Komprehensif Kaedah dan Aplikasi) datang daripada Ming-Hsuan Yang dari Universiti California & Penyelidikan Google, Makmal Cui Bin Universiti Peking , dan CMU dan UCLA , Institut Penyelidikan Mila Montreal dan pasukan penyelidikan lain menjalankan ringkasan dan analisis komprehensif model resapan sedia ada buat kali pertama, memperincikan klasifikasi daripada algoritma model resapan, kaitannya dengan lima model generatif utama yang lain, dan aplikasi dalam tujuh bidang utama Aplikasi dan aspek lain dijalankan, dan akhirnya had sedia ada dan arah pembangunan masa depan model resapan dicadangkan.
Pautan artikel: https://arxiv.org/abs/2209.00796 Kajian semula pautan github ringkasan klasifikasi kertas model resapan ini: https://github.com/YangLing0818/ Resapan -Model-Kertas-Tinjauan-Taksonomi
1 Pengenalan
Model resapan baharu dalam model generatif mendalam SOTA. Model resapan mengatasi SOTA asal: GAN dalam tugas penjanaan imej, dan mempunyai prestasi cemerlang dalam banyak bidang aplikasi, seperti penglihatan komputer, NLP, pemprosesan isyarat bentuk gelombang, pemodelan pelbagai mod, pemodelan graf molekul dan pemodelan siri masa , antagonis penyucian, dsb. Selain itu, model resapan berkait rapat dengan bidang penyelidikan lain, seperti pembelajaran teguh, pembelajaran perwakilan, dan pembelajaran pengukuhan.
Walau bagaimanapun, model penyebaran asal juga mempunyai kekurangan kelajuan pensampelannya, biasanya memerlukan beribu-ribu langkah penilaian untuk melukis sampel tidak boleh dibandingkan dengan berasaskan kemungkinan Berbanding dengan model lain; keupayaannya untuk membuat generalisasi kepada pelbagai jenis data adalah lemah. Pada masa kini, banyak kajian telah melakukan banyak usaha untuk menyelesaikan batasan di atas dari perspektif aplikasi praktikal, atau menganalisis keupayaan model dari perspektif teori.
Walau bagaimanapun, pada masa ini terdapat kekurangan semakan sistematik terhadap kemajuan terkini dalam model resapan daripada algoritma kepada aplikasi. Untuk mencerminkan kemajuan dalam bidang yang berkembang pesat ini, kami membentangkan tinjauan komprehensif pertama model penyebaran. Kami membayangkan bahawa kerja kami akan memberi penerangan tentang pertimbangan reka bentuk dan kaedah lanjutan model penyebaran, menunjukkan aplikasinya dalam bidang yang berbeza, dan menunjukkan arah penyelidikan masa depan. Ringkasan ulasan ini ditunjukkan di bawah:
Walaupun model resapan mempunyai prestasi cemerlang dalam pelbagai tugas, ia masih mempunyai Kekurangannya sendiri, dan banyak lagi. kajian telah menambah baik model resapan.
Untuk menggambarkan secara sistematik kemajuan penyelidikan model resapan, kami meringkaskan tiga kelemahan utama model resapan asal, kelajuan pensampelan yang perlahan, perbezaan kemungkinan maksimum dan keupayaan generalisasi data yang lemah. Ia juga dicadangkan untuk membahagikan penyelidikan penambahbaikan mengenai model resapan kepada tiga kategori yang sepadan: peningkatan kelajuan pensampelan, peningkatan kemungkinan maksimum dan peningkatan generalisasi data.
Kami mula-mula menerangkan motivasi untuk penambahbaikan, dan kemudian mengklasifikasikan penyelidikan dalam setiap arah penambahbaikan mengikut ciri-ciri kaedah, supaya jelas menunjukkan hubungan dan perbezaan antara kaedah . Di sini kami hanya memilih beberapa kaedah penting sebagai contoh Setiap jenis kaedah diperkenalkan secara terperinci dalam kerja kami, seperti yang ditunjukkan dalam rajah:
Selepas. menganalisis tiga jenis model resapan, kami akan memperkenalkan lima lagi model generatif GAN, VAE, model Autoregressive, Aliran Normalisasi dan model berasaskan Tenaga.
Memandangkan sifat cemerlang model resapan, penyelidik telah menggabungkan model resapan dengan model generatif lain berdasarkan ciri-cirinya, untuk menunjukkan lagi ciri dan penambahbaikan resapan model, kami perincikan Artikel ini memperkenalkan kerja menggabungkan model resapan dengan model generatif lain dan menggambarkan penambahbaikan pada model generatif asal.
Model resapan mempunyai prestasi yang sangat baik dalam banyak bidang, dan memandangkan model resapan mempunyai ubah bentuk yang berbeza dalam aplikasi dalam bidang yang berbeza, kami secara sistematik memperkenalkan penyelidikan aplikasi model resapan itu termasuk bidang berikut : penglihatan komputer, NLP, pemprosesan isyarat bentuk gelombang, pemodelan multimodal, pemodelan graf molekul, pemodelan siri masa, dan penulenan lawan. Untuk setiap tugasan, kami mentakrifkan tugasan dan memperkenalkan kerja yang menggunakan model penyebaran untuk mengendalikan tugasan Kami meringkaskan sumbangan utama kerja ini seperti berikut:
- Kaedah pengelasan baharu: Kami mencadangkan taksonomi baharu yang sistematik bagi model resapan dan aplikasinya. Secara khusus, kami membahagikan model kepada tiga kategori: peningkatan kelajuan pensampelan, peningkatan anggaran kemungkinan maksimum dan peningkatan generalisasi data. Tambahan pula, kami mengklasifikasikan aplikasi model resapan kepada tujuh kategori: penglihatan komputer, NLP, pemprosesan isyarat bentuk gelombang, pemodelan multimodal, pemodelan graf molekul, pemodelan siri masa dan penulenan lawan.
- Semakan Komprehensif: Kami menyediakan gambaran menyeluruh pertama model penyebaran moden dan aplikasinya. Kami membentangkan penambahbaikan utama bagi setiap model resapan, membuat perbandingan yang diperlukan dengan model asal, dan meringkaskan kertas kerja yang sepadan. Bagi setiap jenis aplikasi model resapan, kami membentangkan masalah utama yang ditangani oleh model resapan dan menerangkan cara mereka menyelesaikan masalah ini.
- Arah Penyelidikan Masa Hadapan: Kami membangkitkan soalan terbuka untuk penyelidikan masa depan dan memberikan beberapa cadangan untuk pembangunan model resapan pada masa hadapan dalam algoritma dan aplikasi.
2 Asas Model Resapan
Isu teras dalam pemodelan generatif ialah keseimbangan antara fleksibiliti model dan pertukaran komputasi. Idea asas model resapan adalah untuk mengganggu pengedaran dalam data secara sistematik melalui proses resapan ke hadapan, dan kemudian memulihkan pengedaran data dengan mempelajari proses resapan terbalik, dengan itu menghasilkan yang sangat fleksibel dan mudah dikira. model generatif.
(1) Denoising Diffusion Probabilistic Models (DDPM)
Sebuah DDPM terdiri daripada dua komposisi Rantaian Markov berparameter dan menggunakan inferens variasi untuk menghasilkan sampel yang konsisten dengan pengagihan data asal selepas masa yang terhad. Fungsi rantaian hadapan adalah untuk mengganggu data Ia secara beransur-ansur menambah hingar Gaussian kepada data mengikut jadual hingar yang telah direka bentuk sehingga pengagihan data cenderung kepada pengagihan sebelumnya, iaitu, pengagihan Gaussian standard. Rantaian ke belakang bermula dari sebelumnya yang diberikan dan menggunakan kernel transformasi Gaussian berparameter, belajar untuk memulihkan pengedaran data asal secara beransur-ansur. mewakili data asal dan taburannya, maka taburan rantaian hadapan boleh dinyatakan dengan formula berikut:
Ini menunjukkan bahawa rantaian hadapan ialah Markov Proses ialah sampel selepas menambah t langkah hingar, dan ia adalah parameter yang mengawal kemajuan hingar yang diberikan terlebih dahulu. Apabila cenderung kepada 1, ia boleh dianggap lebih kurang mematuhi taburan Gaussian standard. Apabila kecil, inti pemindahan proses songsang boleh dianggap lebih kurang sebagai Gaussian:
Kita boleh mempelajari sempadan bawah variasi sebagai fungsi kehilangan :
(2) Model Generatif Berasaskan Skor (SGM)
Di atas DDPM boleh dianggap sebagai bentuk diskret SGM. SGM membina persamaan pembezaan stokastik (SDE) untuk mengganggu pengedaran data dengan lancar dan mengubah pengedaran data asal kepada pengedaran terdahulu yang diketahui:
dan a SDE songsang sepadan untuk mengubah pengedaran terdahulu kembali kepada pengedaran data asal:
Oleh itu, untuk membalikkan proses resapan dan menjana data, kami hanya maklumat yang diperlukan ialah fungsi pecahan pada setiap titik masa. Menggunakan teknik padanan skor kita boleh mempelajari fungsi skor melalui fungsi kehilangan berikut:
Untuk pengenalan lanjut kepada kedua-dua kaedah dan hubungan antara kedua-duanya, sila lihat artikel kami. Tiga kelemahan utama model resapan asal ialah kelajuan pensampelan yang perlahan, kemungkinan maksimum yang lemah, dan keupayaan generalisasi data yang lemah. Banyak kajian terkini telah menangani kelemahan ini, jadi kami mengklasifikasikan model resapan yang dipertingkatkan kepada tiga kategori: peningkatan kelajuan pensampelan, peningkatan kemungkinan maksimum dan peningkatan generalisasi data. Dalam tiga, empat dan lima bahagian seterusnya kami akan memperkenalkan ketiga-tiga jenis model ini secara terperinci.
3 Kaedah pecutan pensampelan
Apabila digunakan, untuk mengoptimumkan kualiti sampel baharu, model resapan selalunya perlu diproses beribu-ribu kali Sepuluh ribu langkah pengiraan untuk mendapatkan sampel baharu. Ini mengehadkan nilai aplikasi praktikal model resapan, kerana dalam aplikasi sebenar, kita selalunya perlu menjana sejumlah besar sampel baharu untuk menyediakan bahan untuk langkah pemprosesan seterusnya.
Penyelidik telah menjalankan banyak penyelidikan untuk meningkatkan kelajuan pensampelan model resapan. Kami menerangkan kajian ini secara terperinci. Kami memperhalusinya kepada tiga kaedah: Pengoptimuman Diskretisasi, Proses Bukan Markovian dan Persampelan Separa.
(1) Kaedah Pengoptimuman Diskretisasi mengoptimumkan kaedah menyelesaikan SDE resapan. Oleh kerana menyelesaikan SDE kompleks dalam realiti hanya boleh menggunakan penyelesaian diskret untuk menganggarkan penyelesaian sebenar, kaedah jenis ini cuba mengoptimumkan kaedah pendiskretan SDE untuk mengurangkan bilangan langkah diskret sambil memastikan kualiti sampel. SGM mencadangkan kaedah umum untuk menyelesaikan proses terbalik, iaitu, kaedah pendiskretan yang sama diguna pakai untuk proses ke hadapan dan ke belakang. Jika SDE hadapan diberi pendiskretan:
maka kita boleh mendiskrisikan SDE songsang dengan cara yang sama:
Kaedah ini lebih baik sedikit daripada DDPM mudah. Tambahan pula, SGM menambah pembetul kepada penyelesai SDE supaya sampel yang dihasilkan pada setiap langkah mempunyai pengedaran yang betul. Pada setiap langkah penyelesaian, selepas penyelesai diberi sampel, pembetul menggunakan kaedah rantai Markov Monte Carlo untuk membetulkan taburan sampel yang baru dijana. Eksperimen menunjukkan bahawa menambah pembetul kepada penyelesai adalah lebih cekap daripada secara langsung meningkatkan bilangan langkah dalam penyelesai.
(2) Kaedah Proses Bukan Markovian menerobos had Proses Markovian yang asal Setiap langkah proses terbalik boleh bergantung pada lebih banyak sampel lepas untuk meramalkan sampel baharu, begitu juga Ramalan yang lebih baik juga boleh dibuat dengan saiz langkah yang lebih besar, sekali gus mempercepatkan proses pensampelan. Kerja utama DDIM tidak lagi menganggap bahawa proses ke hadapan adalah proses Markov, tetapi mematuhi pengedaran berikut:
Proses pensampelan DDIM boleh Dirawat sebagai persamaan pembezaan tetap divine discretized, proses pensampelan adalah lebih cekap dan menyokong interpolasi sampel. Kajian lanjut mendapati bahawa DDIM boleh dianggap sebagai kes khas model penyebaran on-manifold PNDM.
(3) Kaedah Persampelan Separa secara langsung mengurangkan masa pensampelan dengan mengabaikan sebahagian daripada nod masa dalam proses penjanaan dan hanya menggunakan nod masa yang tinggal untuk menjana sampel. Contohnya, Penyulingan Progresif menyuling model resapan yang lebih cekap daripada model resapan terlatih. Untuk model resapan terlatih, Penyulingan Progresif akan melatih semula model resapan supaya satu langkah model resapan baharu sepadan dengan dua langkah model resapan terlatih, supaya model baharu dapat menjimatkan separuh daripada proses pensampelan model lama. Algoritma khusus adalah seperti berikut:
Menggelung secara berterusan proses penyulingan ini boleh mengurangkan langkah pensampelan secara eksponen.
4 Peningkatan anggaran kemungkinan maksimum
Prestasi model resapan dalam anggaran kemungkinan maksimum adalah lebih teruk daripada model generatif berdasarkan fungsi kemungkinan, tetapi maksimum anggaran kebarangkalian dalam Banyak senario aplikasi adalah sangat penting, seperti pemampatan imej, pembelajaran separa penyeliaan dan penulenan musuh. Memandangkan kemungkinan log sukar dikira secara langsung, penyelidikan tertumpu terutamanya pada pengoptimuman dan menganalisis sempadan bawah variasi (VLB). Kami menghuraikan model yang meningkatkan anggaran kemungkinan maksimum model resapan. Kami memperhalusinya kepada tiga kategori kaedah: Reka Bentuk Objektif, Pengoptimuman Jadual Kebisingan dan Varian Songsang Boleh Dipelajari.
(1) Kaedah Reka Bentuk Objektif menggunakan SDE resapan untuk menyimpulkan hubungan antara kemungkinan log data yang dijana dan fungsi kehilangan yang sepadan dengan fungsi skor. Dengan cara ini, dengan mereka bentuk fungsi kehilangan yang sesuai, VLB dan kemungkinan log boleh dimaksimumkan. Song et al membuktikan bahawa fungsi berat bagi fungsi kehilangan boleh direka bentuk supaya nilai fungsi kemungkinan sampel yang dihasilkan oleh SDE terbalik plug-in adalah kurang daripada atau sama dengan nilai fungsi kehilangan, iaitu fungsi kehilangan adalah. sempadan atas fungsi kemungkinan. Fungsi kehilangan untuk pemasangan fungsi pecahan adalah seperti berikut:
Kita hanya perlu menetapkan fungsi berat kepada pekali resapan g(t) untuk membuat fungsi kehilangan menjadi VLB bagi fungsi kemungkinan, iaitu:
(2) Pengoptimuman Jadual Bunyi direka bentuk atau Ketahui kemajuan bising proses ke hadapan untuk meningkatkan VLB. VDM membuktikan bahawa apabila langkah diskret menghampiri infiniti, fungsi kehilangan ditentukan sepenuhnya oleh titik akhir fungsi nisbah isyarat-ke-bunyi SNR(t):
Kemudian dalam Apabila langkah diskret menghampiri infiniti, VLB boleh dioptimumkan dengan mempelajari titik akhir fungsi nisbah isyarat-ke-bunyi SNR(t), dan aspek lain model boleh dipertingkatkan dengan mempelajari nilai fungsi di bahagian tengah fungsi nisbah isyarat-ke-bunyi. 3. Kaedah Varian Songsang Boleh Belajar mempelajari varians proses songsang, dengan itu mengurangkan ralat pemasangan dan boleh memaksimumkan VLB dengan berkesan. Analitik-DPM membuktikan bahawa terdapat jangkaan dan varians optimum dalam proses songsang dalam DDPM dan DDIM:
Gunakan formula di atas dan Pecahan terlatih fungsi, di bawah syarat-syarat proses ke hadapan yang diberikan, VLB optimum boleh dicapai kira-kira.
5 Peningkatan Generalisasi Data
Model resapan menganggap bahawa data wujud dalam ruang Euclidean, iaitu manifold dengan geometri satah, Dan menambah Gaussian hingar pasti akan menukar data kepada ruang keadaan berterusan, jadi model resapan pada mulanya hanya boleh mengendalikan data berterusan seperti gambar, dan kesan penggunaan terus data diskret atau jenis data lain adalah lemah. Ini mengehadkan senario aplikasi model resapan.
Beberapa kerja penyelidikan menyamaratakan model resapan kepada jenis data lain dan kami menerangkan kaedah ini secara terperinci. Kami mengklasifikasikannya kepada dua jenis kaedah: Penyatuan Ruang Ciri dan Inti Peralihan Bergantung kepada Data.
(1) Kaedah Penyatuan Ruang Ciri menukarkan data menjadi ruang terpendam bersatu, dan kemudian meresapkannya pada ruang terpendam. LSGM mencadangkan untuk menukar data kepada ruang terpendam berterusan melalui rangka kerja VAE dan kemudian meresapkannya padanya. Kesukaran kaedah ini ialah bagaimana melatih VAE dan model resapan pada masa yang sama. LSGM menunjukkan bahawa memandangkan pendasar pendasar sukar dikawal, kerugian padanan pecahan tidak lagi terpakai. LSGM secara langsung menggunakan fungsi kehilangan tradisional ELBO dalam VAE sebagai fungsi kehilangan, dan memperoleh hubungan antara ELBO dan padanan skor:
Formula ini mengabaikan pemalar ditubuhkan dalam erti kata. Dengan meparameterkan fungsi pecahan sampel dalam proses resapan, LSGM boleh mempelajari dan mengoptimumkan ELBO dengan cekap.
(2) Kaedah Kernel Peralihan Bergantung kepada Data mereka bentuk inti peralihan dalam proses resapan mengikut ciri-ciri jenis data, supaya model resapan boleh digunakan secara langsung pada jenis data tertentu. D3PM mereka bentuk inti peralihan untuk data diskret, yang boleh ditetapkan kepada keadaan berjalan rawak malas, menyerap, dsb. GEODIFF mereka bentuk rangkaian neural graf invarian pusingan terjemahan untuk data graf molekul 3D, dan membuktikan bahawa taburan awal invarian dan inti peralihan boleh memperoleh taburan marginal invarian. Andaikan ia adalah transformasi putaran terjemahan, seperti:
Kemudian taburan sampel yang dijana juga mempunyai invarian putaran terjemahan:
6 Hubungan antara dan model generatif lain
Dalam setiap subseksyen di bawah, kami mula-mula memperkenalkan lima jenis penting yang lain model generasi dan menganalisis kekuatan dan batasannya. Kami kemudiannya memperkenalkan cara model resapan berkaitan dengannya dan menggambarkan cara model generatif ini boleh dipertingkatkan dengan menggabungkan model resapan. Hubungan antara VAE, GAN, model Autoregresif, Aliran normalisasi, Model berasaskan tenaga dan model resapan ditunjukkan dalam rajah di bawah:
- DDPM boleh dianggap sebagai VAE Markovian hierarki. Tetapi terdapat juga perbezaan antara DDPM dan VAE am. Sebagai VAE, pengekod dan penyahkod DDPM mematuhi pengedaran Gaussian dan mempunyai baris Markov adalah sama dengan dimensi data semua lapisan penyahkod berkongsi rangkaian saraf;
- DDPM boleh membantu GAN menyelesaikan masalah latihan yang tidak stabil. Oleh kerana data berada dalam manifold berdimensi rendah dalam ruang berdimensi tinggi, pengedaran data yang dijana oleh GAN mempunyai pertindihan yang rendah dengan pengedaran data sebenar, mengakibatkan latihan yang tidak stabil. Model resapan menyediakan proses menambah hingar secara sistematik. Ia menambahkan hingar pada data yang dijana dan data sebenar melalui model resapan, dan kemudian menghantar data tambah hingar kepada diskriminator dengan berkesan dan latihan tidak stabil.
- Menormalkan aliran menukar data kepada pengedaran terdahulu melalui fungsi bijection Pendekatan ini mengehadkan kebolehan ekspresi aliran Menormalkan, mengakibatkan hasil aplikasi yang lemah. Model resapan analogi menambah hingar pada pengekod, yang boleh meningkatkan keupayaan ekspresi aliran Normalizing Dari perspektif lain, pendekatan ini adalah untuk melanjutkan model resapan kepada model yang juga boleh dipelajari dalam proses ke hadapan.
- Model autoregresif perlu memastikan bahawa data mempunyai struktur tertentu, yang menjadikannya sangat sukar untuk mereka bentuk dan parameter model autoregresif. Latihan model penyebaran memberi inspirasi kepada latihan model autoregresif, yang mengelakkan kesukaran reka bentuk melalui kaedah latihan khusus.
- Model berasaskan tenaga secara langsung memodelkan pengedaran data asal, tetapi pemodelan langsung menyukarkan pembelajaran dan pensampelan. Dengan menggunakan kemungkinan pemulihan resapan, model mula-mula boleh menambah sedikit hingar pada sampel, dan kemudian membuat kesimpulan taburan sampel asal daripada taburan sampel yang sedikit bising, menjadikan proses pembelajaran dan pensampelan lebih mudah dan lebih stabil.
7 Aplikasi Model Resapan
Dalam bahagian ini, kami memperkenalkan aplikasi model resapan dalam penglihatan komputer dan pemprosesan bahasa semula jadi masing-masing, pemprosesan isyarat bentuk gelombang, pembelajaran pelbagai mod, penjanaan graf molekul, siri masa dan pembelajaran lawan, dsb. Aplikasi dalam tujuh arah aplikasi utama, dan kaedah dalam setiap jenis aplikasi dibahagikan dan dianalisis. Sebagai contoh, dalam penglihatan komputer, model resapan boleh digunakan untuk penyiapan dan pembaikan imej (RePaint):
Dalam tugasan pelbagai mod, model resapan boleh digunakan Penjanaan Teks ke imej (GLIDE):
Anda juga boleh menggunakan model resapan untuk menjana molekul dadah dan molekul protein dalam graf molekul generasi (GeoDiff ):
Ringkasan klasifikasi aplikasi ditunjukkan dalam jadual:
8 Arahan penyelidikan masa hadapan
- Gunakan ujian semula hipotesis. Kami perlu meneliti andaian yang diterima umum yang kami buat dalam permohonan kami. Sebagai contoh, dalam amalan, secara amnya dipercayai bahawa proses ke hadapan model resapan akan mengubah data menjadi taburan Gaussian piawai, tetapi ini tidak berlaku lebih banyak langkah resapan ke hadapan akan menjadikan pengedaran sampel akhir lebih dekat dengan Gaussian standard pengedaran, selaras dengan proses persampelan ; tetapi lebih banyak langkah penyebaran ke hadapan juga membuat anggaran fungsi pecahan lebih sukar. Keadaan teori sukar diperoleh, lantas membawa kepada ketidakpadanan antara teori dan amalan dalam amalan. Kita harus sedar akan situasi ini dan mereka bentuk model resapan yang sesuai.
- Dari masa diskret kepada masa berterusan. Disebabkan oleh fleksibiliti model resapan, banyak kaedah empirikal boleh dipertingkatkan dengan analisis lanjut. Idea penyelidikan ini menjanjikan dengan menukar model masa diskret kepada model masa berterusan yang sepadan dan kemudian mereka bentuk kaedah diskret yang lebih banyak dan lebih baik.
- Proses generasi baharu. Model resapan menjana sampel melalui dua kaedah utama: satu ialah mendiskrisikan SDE resapan songsang, dan kemudian menjana sampel melalui SDE songsang diskret yang satu lagi ialah menggunakan sifat Markov bagi proses songsang untuk mengecilkan sampel secara progresif. Walau bagaimanapun, untuk beberapa tugas, adalah sukar untuk menggunakan kaedah ini untuk menjana sampel dalam amalan. Oleh itu, kajian lanjut terhadap proses dan perspektif generatif baharu diperlukan.
- Generalkan kepada senario yang lebih kompleks dan lebih banyak bidang penyelidikan. Walaupun model resapan telah digunakan pada banyak senario, kebanyakannya terhad kepada senario input tunggal dan output tunggal Pada masa hadapan, anda boleh mempertimbangkan untuk menerapkannya pada senario yang lebih kompleks, seperti sintesis pertuturan teks kepada audiovisual. Anda juga boleh mempertimbangkan untuk menggabungkannya dengan lebih banyak bidang penyelidikan.
Atas ialah kandungan terperinci Model Difusi yang popular baru-baru ini, ulasan pertama model penjanaan resapan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
