


UC Berkeley Google memperbaharui LLM, melaksanakan model penyebaran terminal dan menggunakannya untuk IGN menjana imej realistik dalam satu langkah dan siri TV Amerika menjadi sumber inspirasi
Model penyebaran yang menjadi popular di separuh dunia akan dihapuskan?
Pada masa ini, model AI generatif, seperti GAN, model resapan atau model ketekalan, menjana imej dengan memetakan input kepada output yang sepadan dengan pengedaran data sasaran Kandungan yang perlu ditulis semula ialah:
Biasanya, ini. jenis model perlu belajar banyak gambar sebenar, dan kemudian ia boleh cuba memastikan ciri-ciri sebenar gambar yang dihasilkan Kandungan yang perlu ditulis semula ialah:
Baru-baru ini, penyelidik dari UC Berkeley dan Google mencadangkan satu. model generasi baharu—— Kandungan yang perlu ditulis semula untuk Idempotent Generating Network (IGN) ialah:
Pictures
Alamat kertas: https://arxiv.org/abs/2311.014
IGN boleh dipilih daripada pelbagai Input, seperti hingar rawak, grafik ringkas, dsb., menjana imej realistik dalam satu langkah tanpa memerlukan lelaran berbilang langkah Kandungan yang perlu ditulis semula ialah:
. Model ini bertujuan untuk menjadi projektor "pemeta global" (pemeta global), yang boleh memetakan sebarang data input kepada pengedaran data sasaran Kandungan yang perlu ditulis semula ialah:
Ringkasnya, model penjanaan imej umum. mesti jadi begini di masa hadapan. Kandungan yang perlu ditulis semula ialah:
Menarik Ya, adegan yang cekap dalam "Seinfeld" ternyata menjadi sumber inspirasi kepada penulis ialah:
Gambar
Adegan ini merumuskan "pengendali idempoten" dengan baik ) Konsep ini bermakna semasa proses operasi, input yang sama dikendalikan berulang kali, dan hasilnya sentiasa sama yang perlu ditulis semula ialah:
Iaitu,
gambar
perlu ditulis semula Kandungan yang ditulis semula ialah:
gambar
perlu ditulis semula Kandungan yang ditulis semula ialah:
Sesetengahnya tingkah laku jenaka juga boleh dianggap sebagai Jerry dalam keadaan berjenaka. idempotent Kandungan yang ditulis semula ialah:Rangkaian Generatif Impoten
IGN dengan Terdapat dua perbezaan penting antara GAN dan model penyebaran:
- Tidak seperti GAN, IGN tidak memerlukan penjana dan diskriminator yang berasingan -confrontation" model yang melengkapkan keperluan penjanaan dan diskriminasi pada masa yang sama. Apa yang perlu ditulis semula ialah:
- Tidak seperti model resapan yang melakukan langkah tambahan, IGN cuba memetakan input kepada pengagihan data dalam satu langkah Apa yang perlu untuk ditulis semula ialah: IGN (model generatif idempoten ) Apakah sumbernya?
Memandangkan pengedaran sasaran sampel input, perkara yang perlu ditulis semula untuk menjana sampel ialah:
contoh set data
, setiap contoh Kedua-duanya diambil daripada
Kandungan yang perlu ditulis semula ialah: Kemudian, penyelidik melatih model
Andaikan bahawa pengedaran dan
terletak dalam ruang yang sama, iaitu kejadian mereka mempunyai dimensi yang sama: Perkara yang perlu ditulis semula ialah: Ini membolehkan untuk menggunakan
kepada kedua-dua jenis kejadian
. dan
Kandungan yang perlu ditulis semula ialah:
Gambar menunjukkan idea asas di sebalik IGN: contoh sebenar (x) tidak berubah kepada model f Kandungan yang perlu ditulis semula ialah: input lain (z) dipetakan Kandungan yang perlu ditulis semula untuk memetakan f ke aliran contoh sendiri melalui pengoptimuman
ialah:
Gambar
Sebahagian daripada contoh latihan PyTorch Kod yang perlu ditulis semula ialah:
Gambar
Apakah kesan selepas mendapat IGN? . data telah digunakan Set, dan dalam penerokaan, kami memberi tumpuan terutamanya pada kaedah ringkas yang perlu ditulis semula:
Sudah tentu, teknologi pemodelan generatif asas, seperti model GAN dan penyebaran, juga mengambil masa yang lama untuk mencapai kematangan dan skala. Perkara yang perlu ditulis semula untuk prestasi ialah:
Persediaan eksperimen
Para penyelidik menilai IGN pada MNIST (set data digit tulisan tangan skala kelabu) dan CelebA (set data imej muka), masing-masing menggunakan 28×28 dan 64 Kandungan yang perlu ditulis semula untuk resolusi imej ×64 ialah:
Pengarang menggunakan seni bina autoenkoder yang mudah, di mana pengekod adalah tulang belakang diskriminator lima lapisan ringkas dari DCGAN, dan penyahkod ialah penjana yang perlu ditulis semula. Kandungannya ialah: Latihan dan hiperparameter rangkaian ditunjukkan dalam Jadual 1. Kandungan yang perlu ditulis semula ialah:
Gambar
Hasil penjanaan
model sekali dan dua kali berturut-turut Hasil kualitatif untuk kedua-dua set data perlu ditulis semula sebagai:
Seperti yang ditunjukkan, menggunakan IGN sekali (f (z)) menghasilkan hasil penjanaan koheren yang perlu ditulis semula ialah: Walau bagaimanapun, artifak mungkin berlaku Bayang-bayang, seperti lubang dalam digit MNIST, atau piksel herot di bahagian atas kepala dan rambut dalam imej muka perlu ditulis semula:
Menggunakan f (f (f (z))) sekali lagi boleh membetulkan masalah ini , mengisi lubang, atau untuk mengurangkan jumlah variasi di sekitar tompok hingar muka Apa yang perlu ditulis semula ialah:
Gambar
Rajah 7 menunjukkan hasil tambahan serta keputusan permohonan f tiga kali Apa yang perlu ditulis semula ialah:
Picture
Bandingkan #🎜 dan #🎜🎜🎜##🎜 # menunjukkan bahawa apabila imej hampir dengan manifold yang dipelajari, penggunaan f sekali lagi menghasilkan perubahan yang minimum kerana imej itu dianggap diedarkan ialah:
.
Pengarang menunjukkan bahawa IGN mempunyai ruang terpendam yang konsisten dengan melakukan operasi, sama seperti yang ditunjukkan untuk GAN, Rajah 6 menunjukkan perkara yang perlu ditulis semula untuk algoritma ruang terpendam: #Pemetaan luar pengedaran
Pengarang juga mengesahkan bahawa dengan memasukkan imej daripada pelbagai pengedaran ke dalam model untuk menjana " "Imej semula jadi" yang setara dengannya, untuk mengesahkan potensi "pemetaan global" IGN, kandungan yang perlu ditulis semula ialah: # 🎜🎜#
telah diwarnakan, serta lakaran #🎜🎜 🎜# telah ditukar kepada imej sebenar dalam Rajah 5 untuk membuktikan perkara ini ialah:
Imej asal Kandungannya ialah:
#🎜. 🎜#Seperti yang ditunjukkan, mengaplikasi f secara berterusan boleh meningkatkan kualiti imej (contohnya, ia menghilangkan artifak gelap dan asap dalam lakaran yang ditayangkan) dan perlu ditulis semula Kandungannya ialah: #🎜🎜 #Picture
Google Next?
Dapat dilihat daripada keputusan di atas bahawa IGN lebih berkesan dalam inferens dan boleh menjana hasil hanya dalam satu langkah selepas latihan Kandungan yang perlu ditulis semula ialah: #🎜🎜 ##🎜 🎜#
Mereka juga boleh mengeluarkan hasil yang lebih konsisten, yang mungkin diperluaskan kepada lebih banyak aplikasi, seperti pembaikan imej perubatan Kandungan yang perlu ditulis semula ialah:#🎜 🎜##🎜 🎜#Pengarang kertas kerja menyatakan:
Kami percaya karya ini adalah langkah pertama ke arah model yang belajar untuk mengambil input sewenang-wenangnya Pemetaan kepada pengedaran sasaran, yang merupakan paradigma baharu pemodelan generatif, perkara yang perlu ditulis semula ialah: data untuk menskalakan IGN dengan harapan dapat memanfaatkan potensi penuh model AI generatif baharu Apa yang perlu ditulis semula ialah: Kandungan yang perlu ditulis semula ialah:
#🎜: /🎜 /www.php.cn/link/2bd388f731f26312bfc0fe30da009595
cs/f6dd 04457a6565a6#🎜 🎜#
Atas ialah kandungan terperinci UC Berkeley Google memperbaharui LLM, melaksanakan model penyebaran terminal dan menggunakannya untuk IGN menjana imej realistik dalam satu langkah dan siri TV Amerika menjadi sumber inspirasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
