


Bolehkah Resapan Stabil mengatasi algoritma seperti JPEG dan meningkatkan pemampatan imej sambil mengekalkan kejelasan?
Model penjanaan imej berasaskan teks sangat popular Bukan sahaja model resapan yang popular, tetapi juga model Resapan Stable sumber terbuka.
Baru-baru ini, seorang jurutera perisian Switzerland, Matthias Bühlmann, secara tidak sengaja mendapati bahawa Stable Diffusion bukan sahaja boleh digunakan untuk menjana imej; >Mampatkan imej peta bit walaupun dengan nisbah mampatan yang lebih tinggi daripada JPEG dan WebP.
Contohnya, foto llama, imej asal ialah 768KB, yang boleh dimampatkan kepada 5.66KB menggunakan JPEG dan Stable Diffusion boleh terus memampatkannya kepada 4.98KB dan boleh memelihara lebih banyak butiran peleraian tinggi dan kurang artifak mampatan, jelas lebih baik daripada algoritma mampatan lain.
Walau bagaimanapun, kaedah pemampatan ini juga mempunyai kelemahan, iaitu tidak sesuai untuk memampatkan imej muka dan teks dalam sesetengah kes seterusnya, ia akan menjana beberapa imej asal tanpa sebarang kandungan .
Walaupun melatih semula pengekod auto juga boleh mencapai kesan mampatan yang serupa dengan Resapan Stabil, tetapi menggunakan Resapan Stabil Salah satu kelebihan utama adakah seseorang telah melabur berjuta-juta dana untuk membantu anda melatih satu, jadi mengapa anda membelanjakan wang untuk melatih model mampatan sekali lagi?
Cara Resapan Stabil memampatkan imejModel resapan mencabar penguasaan model generatif, dan model Resapan Stabil sumber terbuka yang sepadan juga mencetuskan revolusi artistik dalam komuniti pembelajaran mesin.
Resapan Stabil diperoleh dengan menggabungkan tiga rangkaian neural terlatih, iaitu pengekod auto variasi (VAE) , Model U-Net dan pengekod teks.
Pengekod auto variasi mengekod dan menyahkod imej dalam ruang imej untuk mendapatkan vektor perwakilan imej dalam ruang pendam , mewakili imej sumber (3x8 atau 4x8bit 512x512) sebagai vektor dengan peleraian lebih rendah (64x64) dengan ketepatan lebih tinggi (4x32bit) >.
Proses latihan VAE untuk mengekod imej ke dalam ruang terpendam terutamanya bergantung pada pembelajaran penyeliaan kendiri, iaitu input dan output adalah kedua-dua imej sumber, supaya model dilatih lebih lanjut , versi model yang berbeza Perwakilan ruang terpendam mungkin kelihatan berbeza.
Selepas memetakan semula dan mentafsir ke dalam imej berwarna 4 saluran menggunakan perwakilan ruang terpendam bagi Stable Diffusion v1.4, ia kelihatan seperti imej tengah di bawah, dalam imej sumber Ciri utama masih kelihatan .
Perlu diambil perhatian bahawa VAE dikodkan pergi balik sekali dan tidak rugi.
Sebagai contoh, selepas penyahkodan, nama ANNA pada pita biru tidak sejelas imej sumber, dan kebolehbacaan berkurangan dengan ketara.
Pengekod auto variasi dalam Stable Diffusion v1.4tidak begitu baik dalam mewakiliteks kecil dan imej muka , saya tidak tahu sama ada ia akan dipertingkatkan dalam v1.5.
Algoritma mampatan utama Resapan Stabil ialah menggunakan perwakilan ruang terpendam imej ini untuk menjana imej baharu daripada penerangan teks pendek.
Bermula daripada hingar rawak yang diwakili oleh ruang terpendam, keluarkan bunyi secara berulang bagi imej ruang terpendam menggunakan U-Net terlatih sepenuhnya, dan keluarkan model dengan perwakilan yang lebih mudah bahawa ia menyangka ia dalam bunyi ini Ramalan "melihat" adalah sedikit seperti apabila kita melihat awan, kita boleh memulihkan bentuk atau wajah dalam fikiran kita daripada bentuk yang tidak teratur .
Apabila Stable Diffusion digunakan untuk menjana imej, langkah denoising berulang ini dipandu oleh komponen ketiga, pengekod teks, yang menyediakan U-Net dengan maklumat mengenainya Maklumat tentang perkara yang perlu cuba lihat dalam bunyi.
Walau bagaimanapun, untuk tugasan pemampatan, tiada pengekod teks diperlukan, jadi proses percubaan hanya mencipta pengekodan rentetan kosong Digunakan untuk beritahu U-Net untuk melakukan unguide denoising semasa pembinaan semula imej.
Untuk menggunakan Stable Diffusion sebagai codec mampatan imej, algoritma perlu memampatkan perwakilan terpendam yang dihasilkan oleh VAE dengan berkesan.
Dalam eksperimen, boleh didapati bahawa menurunkan persampelan perwakilan terpendam atau terus menggunakan kaedah pemampatan imej lossy sedia ada akan mengurangkan kualiti imej yang dibina semula.
Tetapi penulis mendapati bahawa penyahkodan VAE nampaknya sangat berkesan dalam pengkuantitian perwakilan terpendam.
Penskalaan, pengapitan dan pemetaan semula potensi daripada titik terapung kepada integer tidak bertanda 8-bit hanya menghasilkan ralat pembinaan semula yang kecil.
Dengan mengukur perwakilan terpendam 8-bit, saiz data yang diwakili oleh imej kini ialah 64*64*4*8bit=16kB, yang adalah lebih kecil daripada tidak dimampatkan Imej sumber ialah 512*512*3*8bit=768kB
Jika bilangan bit perwakilan pendam kurang daripada 8 bit, ia tidak akan menghasilkan lebih baik keputusan.
Jika anda terus melakukan memaletkan dan mengadu pada imej, kesan pengkuantitian akan bertambah baik lagi.
Mencipta perwakilan palet menggunakan perwakilan terpendam 256*4*8 bit vektor dan Floyd-Steinberg dithering, memampatkan lagi saiz data kepada 64*64*8+256* 4*8bit =5kB
Penyelewengan palet angkasa terpendam akan menimbulkan bunyi, sekali gus memesongkan hasil penyahkodan. Walau bagaimanapun, memandangkan Stable Diffusion adalah berdasarkan penyingkiran bunyi terpendam, U-Net boleh digunakan untuk mengeluarkan bunyi yang disebabkan oleh jitter.
Selepas 4 lelaran, hasil pembinaan semula secara visual sangat hampir dengan versi tidak terkuantisasi.
Walaupun jumlah data sangat berkurangan (imej sumber adalah 155 kali lebih besar daripada imej termampat), kesannya sangat baik, tetapi ia juga memperkenalkan Beberapa artifak (seperti corak hati dalam imej asal yang tidak ada).
Menariknya, artifak yang diperkenalkan oleh skema mampatan ini mempunyai kesan yang lebih besar pada kandungan imej berbanding kualiti imej, dan imej yang dimampatkan dengan cara ini mungkin mengandungi jenis artifak mampatan ini.
Pengarang juga menggunakan zlib untuk melakukan pemampatan tanpa kehilangan palet dan indeks Dalam sampel ujian, kebanyakan keputusan mampatan adalah kurang daripada 5kb , tetapi kaedah pemampatan ini masih mempunyai lebih banyak ruang untuk pengoptimuman.
Untuk menilai codec mampatan ini, pengarang tidak menggunakan sebarang imej ujian standard yang terdapat dalam talian kerana imej di Internet berkemungkinan besar digunakan dalam latihan Kepekatan Resapan Stabil telah berlaku, dan memampatkan imej sedemikian boleh mengakibatkan kelebihan kontras yang tidak adil.
Untuk membuat perbandingan seadil mungkin, pengarang menggunakan tetapan pengekod kualiti tertinggi daripada perpustakaan imej Python, serta menambah pemampatan data tanpa kehilangan data JPG yang dimampat menggunakan mozjpeg perpustakaan.
Perlu diingat bahawa walaupun hasil Stable Diffusion secara subjektif kelihatan jauh lebih baik daripada imej mampat JPG dan WebP, mereka tidak jauh lebih baik dari segi ukuran standard seperti PSNR atau SSIM, tetapi tidak lebih teruk.
hanya memperkenalkan jenis artifak yang kurang ketara kerana ia menjejaskan kandungan imej lebih daripada kualiti imej.
Kaedah mampatan ini juga agak berbahaya, walaupun kualiti ciri yang dibina semula adalah tinggi, kandungan mungkin dipengaruhi oleh artifak mampatan, walaupun ia kelihatan sangat tajam.
Sebagai contoh, dalam imej ujian, walaupun Stable Diffusion sebagai codec jauh lebih baik dalam mengekalkan kualiti imej, malah butiran kamera boleh dipelihara ( yang sukar untuk kebanyakan algoritma pemampatan tradisional), tetapi kandungannya masih dipengaruhi oleh artifak mampatan dan ciri halus seperti bentuk bangunan mungkin berubah.
Walaupun sememangnya mustahil untuk mengenal pasti lebih banyak nilai sebenar dalam imej termampat JPG berbanding dalam imej mampat Resapan Stabil, mampatan Resapan Stabil hasil kualiti visual yang tinggi boleh memperdayakan kerana artifak mampatan dalam JPG dan WebP lebih mudah dikesan.
Jika anda juga ingin menghasilkan semula percubaan, pengarang telah membuka sumber kod pada Colab.
Pautan kod: https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing >
Akhirnya, penulis mengatakan bahawa eksperimen yang direka dalam artikel itu masih agak mudah, tetapi kesannya masih mengejutkan, Masih banyak ruang untuk penambahbaikan dalam masa depan .
Atas ialah kandungan terperinci Bolehkah Resapan Stabil mengatasi algoritma seperti JPEG dan meningkatkan pemampatan imej sambil mengekalkan kejelasan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Lapisan bawah fungsi C++ sort menggunakan isihan gabungan, kerumitannya ialah O(nlogn), dan menyediakan pilihan algoritma pengisihan yang berbeza, termasuk isihan pantas, isihan timbunan dan isihan stabil.

Konvergensi kecerdasan buatan (AI) dan penguatkuasaan undang-undang membuka kemungkinan baharu untuk pencegahan dan pengesanan jenayah. Keupayaan ramalan kecerdasan buatan digunakan secara meluas dalam sistem seperti CrimeGPT (Teknologi Ramalan Jenayah) untuk meramal aktiviti jenayah. Artikel ini meneroka potensi kecerdasan buatan dalam ramalan jenayah, aplikasi semasanya, cabaran yang dihadapinya dan kemungkinan implikasi etika teknologi tersebut. Kecerdasan Buatan dan Ramalan Jenayah: Asas CrimeGPT menggunakan algoritma pembelajaran mesin untuk menganalisis set data yang besar, mengenal pasti corak yang boleh meramalkan di mana dan bila jenayah mungkin berlaku. Set data ini termasuk statistik jenayah sejarah, maklumat demografi, penunjuk ekonomi, corak cuaca dan banyak lagi. Dengan mengenal pasti trend yang mungkin terlepas oleh penganalisis manusia, kecerdasan buatan boleh memperkasakan agensi penguatkuasaan undang-undang

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh

Fotografi mudah alih secara asasnya telah mengubah cara kami merakam dan berkongsi detik kehidupan. Kemunculan telefon pintar, terutamanya iPhone, memainkan peranan penting dalam peralihan ini. Terkenal dengan teknologi kamera canggih dan ciri penyuntingan yang mesra pengguna, iPhone telah menjadi pilihan pertama untuk jurugambar amatur dan berpengalaman. Pelancaran iOS 17 menandakan peristiwa penting dalam perjalanan ini. Kemas kini terbaharu Apple membawa satu set ciri penyuntingan foto yang dipertingkatkan, memberikan pengguna kit alat yang lebih berkuasa untuk menukar syot kilat setiap hari mereka kepada imej yang menarik secara visual dan kaya secara artistik. Perkembangan teknologi ini bukan sahaja memudahkan proses fotografi tetapi juga membuka ruang baharu untuk ekspresi kreatif, membolehkan pengguna menyuntik sentuhan profesional ke dalam foto mereka dengan mudah.

1. Latar Belakang Pembinaan 58 Portrait Platform Pertama sekali, saya ingin berkongsi dengan anda latar belakang pembinaan 58 Portrait Platform. 1. Pemikiran tradisional platform pemprofilan tradisional tidak lagi mencukupi Membina platform pemprofilan pengguna bergantung pada keupayaan pemodelan gudang data untuk menyepadukan data daripada pelbagai barisan perniagaan untuk membina potret pengguna yang tepat untuk memahami tingkah laku, minat pengguna dan keperluan, dan menyediakan keupayaan sampingan, akhirnya, ia juga perlu mempunyai keupayaan platform data untuk menyimpan, bertanya dan berkongsi data profil pengguna dan menyediakan perkhidmatan profil dengan cekap. Perbezaan utama antara platform pemprofilan perniagaan binaan sendiri dan platform pemprofilan pejabat pertengahan ialah platform pemprofilan binaan sendiri menyediakan satu barisan perniagaan dan boleh disesuaikan atas permintaan platform pertengahan pejabat berkhidmat berbilang barisan perniagaan, mempunyai kompleks pemodelan, dan menyediakan lebih banyak keupayaan umum. 2.58 Potret pengguna latar belakang pembinaan potret di platform tengah 58

Ditulis di atas & Pemahaman peribadi penulis ialah dalam sistem pemanduan autonomi, tugas persepsi adalah komponen penting dalam keseluruhan sistem pemanduan autonomi. Matlamat utama tugas persepsi adalah untuk membolehkan kenderaan autonomi memahami dan melihat elemen persekitaran sekeliling, seperti kenderaan yang memandu di jalan raya, pejalan kaki di tepi jalan, halangan yang dihadapi semasa memandu, tanda lalu lintas di jalan raya, dan sebagainya, dengan itu membantu hiliran. modul Membuat keputusan dan tindakan yang betul dan munasabah. Kenderaan dengan keupayaan pemanduan autonomi biasanya dilengkapi dengan pelbagai jenis penderia pengumpulan maklumat, seperti penderia kamera pandangan sekeliling, penderia lidar, penderia radar gelombang milimeter, dsb., untuk memastikan kenderaan autonomi itu dapat melihat dan memahami persekitaran sekeliling dengan tepat. elemen , membolehkan kenderaan autonomi membuat keputusan yang betul semasa pemanduan autonomi. kepala
