Rumah Peranti teknologi AI Bolehkah Resapan Stabil mengatasi algoritma seperti JPEG dan meningkatkan pemampatan imej sambil mengekalkan kejelasan?

Bolehkah Resapan Stabil mengatasi algoritma seperti JPEG dan meningkatkan pemampatan imej sambil mengekalkan kejelasan?

Apr 27, 2023 am 08:28 AM
algoritma imej

Model penjanaan imej berasaskan teks sangat popular Bukan sahaja model resapan yang popular, tetapi juga model Resapan Stable sumber terbuka.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Baru-baru ini, seorang jurutera perisian Switzerland, Matthias Bühlmann, secara tidak sengaja mendapati bahawa Stable Diffusion bukan sahaja boleh digunakan untuk menjana imej; >Mampatkan imej peta bit walaupun dengan nisbah mampatan yang lebih tinggi daripada JPEG dan WebP.

Contohnya, foto llama, imej asal ialah 768KB, yang boleh dimampatkan kepada 5.66KB menggunakan JPEG dan Stable Diffusion boleh terus memampatkannya kepada 4.98KB dan boleh memelihara lebih banyak butiran peleraian tinggi dan kurang artifak mampatan, jelas lebih baik daripada algoritma mampatan lain.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Walau bagaimanapun, kaedah pemampatan ini juga mempunyai kelemahan, iaitu tidak sesuai untuk memampatkan imej muka dan teks dalam sesetengah kes seterusnya, ia akan menjana beberapa imej asal tanpa sebarang kandungan .

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Walaupun melatih semula pengekod auto juga boleh mencapai kesan mampatan yang serupa dengan Resapan Stabil, tetapi menggunakan Resapan Stabil Salah satu kelebihan utama adakah seseorang telah melabur berjuta-juta dana untuk membantu anda melatih satu, jadi mengapa anda membelanjakan wang untuk melatih model mampatan sekali lagi?

Cara Resapan Stabil memampatkan imej

Model resapan mencabar penguasaan model generatif, dan model Resapan Stabil sumber terbuka yang sepadan juga mencetuskan revolusi artistik dalam komuniti pembelajaran mesin.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Resapan Stabil diperoleh dengan menggabungkan tiga rangkaian neural terlatih, iaitu pengekod auto variasi (VAE) , Model U-Net dan pengekod teks.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Pengekod auto variasi mengekod dan menyahkod imej dalam ruang imej untuk mendapatkan vektor perwakilan imej dalam ruang pendam , mewakili imej sumber (3x8 atau 4x8bit 512x512) sebagai vektor dengan peleraian lebih rendah (64x64) dengan ketepatan lebih tinggi (4x32bit) >.

Proses latihan VAE untuk mengekod imej ke dalam ruang terpendam terutamanya bergantung pada pembelajaran penyeliaan kendiri, iaitu input dan output adalah kedua-dua imej sumber, supaya model dilatih lebih lanjut , versi model yang berbeza Perwakilan ruang terpendam mungkin kelihatan berbeza.

Selepas memetakan semula dan mentafsir ke dalam imej berwarna 4 saluran menggunakan perwakilan ruang terpendam bagi Stable Diffusion v1.4, ia kelihatan seperti imej tengah di bawah, dalam imej sumber Ciri utama masih kelihatan .

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Perlu diambil perhatian bahawa VAE dikodkan pergi balik sekali dan tidak rugi.

Sebagai contoh, selepas penyahkodan, nama ANNA pada pita biru tidak sejelas imej sumber, dan kebolehbacaan berkurangan dengan ketara.

Pengekod auto variasi dalam Stable Diffusion v1.4tidak begitu baik dalam mewakiliteks kecil dan imej muka , saya tidak tahu sama ada ia akan dipertingkatkan dalam v1.5.

Algoritma mampatan utama Resapan Stabil ialah menggunakan perwakilan ruang terpendam imej ini untuk menjana imej baharu daripada penerangan teks pendek.

Bermula daripada hingar rawak yang diwakili oleh ruang terpendam, keluarkan bunyi secara berulang bagi imej ruang terpendam menggunakan U-Net terlatih sepenuhnya, dan keluarkan model dengan perwakilan yang lebih mudah bahawa ia menyangka ia dalam bunyi ini Ramalan "melihat" adalah sedikit seperti apabila kita melihat awan, kita boleh memulihkan bentuk atau wajah dalam fikiran kita daripada bentuk yang tidak teratur .

Apabila Stable Diffusion digunakan untuk menjana imej, langkah denoising berulang ini dipandu oleh komponen ketiga, pengekod teks, yang menyediakan U-Net dengan maklumat mengenainya Maklumat tentang perkara yang perlu cuba lihat dalam bunyi.

Walau bagaimanapun, untuk tugasan pemampatan, tiada pengekod teks diperlukan, jadi proses percubaan hanya mencipta pengekodan rentetan kosong Digunakan untuk beritahu U-Net untuk melakukan unguide denoising semasa pembinaan semula imej.

Untuk menggunakan Stable Diffusion sebagai codec mampatan imej, algoritma perlu memampatkan perwakilan terpendam yang dihasilkan oleh VAE dengan berkesan.

Dalam eksperimen, boleh didapati bahawa menurunkan persampelan perwakilan terpendam atau terus menggunakan kaedah pemampatan imej lossy sedia ada akan mengurangkan kualiti imej yang dibina semula.

Tetapi penulis mendapati bahawa penyahkodan VAE nampaknya sangat berkesan dalam pengkuantitian perwakilan terpendam.

Penskalaan, pengapitan dan pemetaan semula potensi daripada titik terapung kepada integer tidak bertanda 8-bit hanya menghasilkan ralat pembinaan semula yang kecil.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Dengan mengukur perwakilan terpendam 8-bit, saiz data yang diwakili oleh imej kini ialah 64*64*4*8bit=16kB, yang adalah lebih kecil daripada tidak dimampatkan Imej sumber ialah 512*512*3*8bit=768kB

Jika bilangan bit perwakilan pendam kurang daripada 8 bit, ia tidak akan menghasilkan lebih baik keputusan.

Jika anda terus melakukan memaletkan dan mengadu pada imej, kesan pengkuantitian akan bertambah baik lagi.

Mencipta perwakilan palet menggunakan perwakilan terpendam 256*4*8 bit vektor dan Floyd-Steinberg dithering, memampatkan lagi saiz data kepada 64*64*8+256* 4*8bit =5kB

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Penyelewengan palet angkasa terpendam akan menimbulkan bunyi, sekali gus memesongkan hasil penyahkodan. Walau bagaimanapun, memandangkan Stable Diffusion adalah berdasarkan penyingkiran bunyi terpendam, U-Net boleh digunakan untuk mengeluarkan bunyi yang disebabkan oleh jitter.

Selepas 4 lelaran, hasil pembinaan semula secara visual sangat hampir dengan versi tidak terkuantisasi.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Walaupun jumlah data sangat berkurangan (imej sumber adalah 155 kali lebih besar daripada imej termampat), kesannya sangat baik, tetapi ia juga memperkenalkan Beberapa artifak (seperti corak hati dalam imej asal yang tidak ada).

Menariknya, artifak yang diperkenalkan oleh skema mampatan ini mempunyai kesan yang lebih besar pada kandungan imej berbanding kualiti imej, dan imej yang dimampatkan dengan cara ini mungkin mengandungi jenis artifak mampatan ini.

Pengarang juga menggunakan zlib untuk melakukan pemampatan tanpa kehilangan palet dan indeks Dalam sampel ujian, kebanyakan keputusan mampatan adalah kurang daripada 5kb , tetapi kaedah pemampatan ini masih mempunyai lebih banyak ruang untuk pengoptimuman.

Untuk menilai codec mampatan ini, pengarang tidak menggunakan sebarang imej ujian standard yang terdapat dalam talian kerana imej di Internet berkemungkinan besar digunakan dalam latihan Kepekatan Resapan Stabil telah berlaku, dan memampatkan imej sedemikian boleh mengakibatkan kelebihan kontras yang tidak adil.

Untuk membuat perbandingan seadil mungkin, pengarang menggunakan tetapan pengekod kualiti tertinggi daripada perpustakaan imej Python, serta menambah pemampatan data tanpa kehilangan data JPG yang dimampat menggunakan mozjpeg perpustakaan.

Perlu diingat bahawa walaupun hasil Stable Diffusion secara subjektif kelihatan jauh lebih baik daripada imej mampat JPG dan WebP, mereka tidak jauh lebih baik dari segi ukuran standard seperti PSNR atau SSIM, tetapi tidak lebih teruk.

hanya memperkenalkan jenis artifak yang kurang ketara kerana ia menjejaskan kandungan imej lebih daripada kualiti imej.

Kaedah mampatan ini juga agak berbahaya, walaupun kualiti ciri yang dibina semula adalah tinggi, kandungan mungkin dipengaruhi oleh artifak mampatan, walaupun ia kelihatan sangat tajam.

Sebagai contoh, dalam imej ujian, walaupun Stable Diffusion sebagai codec jauh lebih baik dalam mengekalkan kualiti imej, malah butiran kamera boleh dipelihara ( yang sukar untuk kebanyakan algoritma pemampatan tradisional), tetapi kandungannya masih dipengaruhi oleh artifak mampatan dan ciri halus seperti bentuk bangunan mungkin berubah.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Walaupun sememangnya mustahil untuk mengenal pasti lebih banyak nilai sebenar dalam imej termampat JPG berbanding dalam imej mampat Resapan Stabil, mampatan Resapan Stabil hasil kualiti visual yang tinggi boleh memperdayakan kerana artifak mampatan dalam JPG dan WebP lebih mudah dikesan.

Jika anda juga ingin menghasilkan semula percubaan, pengarang telah membuka sumber kod pada Colab.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Pautan kod: https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing >​

Akhirnya, penulis mengatakan bahawa eksperimen yang direka dalam artikel itu masih agak mudah, tetapi kesannya masih mengejutkan, Masih banyak ruang untuk penambahbaikan dalam masa depan .

Atas ialah kandungan terperinci Bolehkah Resapan Stabil mengatasi algoritma seperti JPEG dan meningkatkan pemampatan imej sambil mengekalkan kejelasan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Mar 26, 2024 pm 12:41 PM

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Jun 03, 2024 pm 01:25 PM

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Terokai prinsip asas dan pemilihan algoritma bagi fungsi isihan C++ Terokai prinsip asas dan pemilihan algoritma bagi fungsi isihan C++ Apr 02, 2024 pm 05:36 PM

Lapisan bawah fungsi C++ sort menggunakan isihan gabungan, kerumitannya ialah O(nlogn), dan menyediakan pilihan algoritma pengisihan yang berbeza, termasuk isihan pantas, isihan timbunan dan isihan stabil.

Bolehkah kecerdasan buatan meramalkan jenayah? Terokai keupayaan CrimeGPT Bolehkah kecerdasan buatan meramalkan jenayah? Terokai keupayaan CrimeGPT Mar 22, 2024 pm 10:10 PM

Konvergensi kecerdasan buatan (AI) dan penguatkuasaan undang-undang membuka kemungkinan baharu untuk pencegahan dan pengesanan jenayah. Keupayaan ramalan kecerdasan buatan digunakan secara meluas dalam sistem seperti CrimeGPT (Teknologi Ramalan Jenayah) untuk meramal aktiviti jenayah. Artikel ini meneroka potensi kecerdasan buatan dalam ramalan jenayah, aplikasi semasanya, cabaran yang dihadapinya dan kemungkinan implikasi etika teknologi tersebut. Kecerdasan Buatan dan Ramalan Jenayah: Asas CrimeGPT menggunakan algoritma pembelajaran mesin untuk menganalisis set data yang besar, mengenal pasti corak yang boleh meramalkan di mana dan bila jenayah mungkin berlaku. Set data ini termasuk statistik jenayah sejarah, maklumat demografi, penunjuk ekonomi, corak cuaca dan banyak lagi. Dengan mengenal pasti trend yang mungkin terlepas oleh penganalisis manusia, kecerdasan buatan boleh memperkasakan agensi penguatkuasaan undang-undang

Algoritma pengesanan yang dipertingkatkan: untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi Algoritma pengesanan yang dipertingkatkan: untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi Jun 06, 2024 pm 12:33 PM

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh

Bagaimana untuk mengedit foto pada iPhone menggunakan iOS 17 Bagaimana untuk mengedit foto pada iPhone menggunakan iOS 17 Nov 30, 2023 pm 11:39 PM

Fotografi mudah alih secara asasnya telah mengubah cara kami merakam dan berkongsi detik kehidupan. Kemunculan telefon pintar, terutamanya iPhone, memainkan peranan penting dalam peralihan ini. Terkenal dengan teknologi kamera canggih dan ciri penyuntingan yang mesra pengguna, iPhone telah menjadi pilihan pertama untuk jurugambar amatur dan berpengalaman. Pelancaran iOS 17 menandakan peristiwa penting dalam perjalanan ini. Kemas kini terbaharu Apple membawa satu set ciri penyuntingan foto yang dipertingkatkan, memberikan pengguna kit alat yang lebih berkuasa untuk menukar syot kilat setiap hari mereka kepada imej yang menarik secara visual dan kaya secara artistik. Perkembangan teknologi ini bukan sahaja memudahkan proses fotografi tetapi juga membuka ruang baharu untuk ekspresi kreatif, membolehkan pengguna menyuntik sentuhan profesional ke dalam foto mereka dengan mudah.

Aplikasi algoritma dalam pembinaan 58 platform potret Aplikasi algoritma dalam pembinaan 58 platform potret May 09, 2024 am 09:01 AM

1. Latar Belakang Pembinaan 58 Portrait Platform Pertama sekali, saya ingin berkongsi dengan anda latar belakang pembinaan 58 Portrait Platform. 1. Pemikiran tradisional platform pemprofilan tradisional tidak lagi mencukupi Membina platform pemprofilan pengguna bergantung pada keupayaan pemodelan gudang data untuk menyepadukan data daripada pelbagai barisan perniagaan untuk membina potret pengguna yang tepat untuk memahami tingkah laku, minat pengguna dan keperluan, dan menyediakan keupayaan sampingan, akhirnya, ia juga perlu mempunyai keupayaan platform data untuk menyimpan, bertanya dan berkongsi data profil pengguna dan menyediakan perkhidmatan profil dengan cekap. Perbezaan utama antara platform pemprofilan perniagaan binaan sendiri dan platform pemprofilan pejabat pertengahan ialah platform pemprofilan binaan sendiri menyediakan satu barisan perniagaan dan boleh disesuaikan atas permintaan platform pertengahan pejabat berkhidmat berbilang barisan perniagaan, mempunyai kompleks pemodelan, dan menyediakan lebih banyak keupayaan umum. 2.58 Potret pengguna latar belakang pembinaan potret di platform tengah 58

Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia! Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia! Mar 14, 2024 pm 11:50 PM

Ditulis di atas & Pemahaman peribadi penulis ialah dalam sistem pemanduan autonomi, tugas persepsi adalah komponen penting dalam keseluruhan sistem pemanduan autonomi. Matlamat utama tugas persepsi adalah untuk membolehkan kenderaan autonomi memahami dan melihat elemen persekitaran sekeliling, seperti kenderaan yang memandu di jalan raya, pejalan kaki di tepi jalan, halangan yang dihadapi semasa memandu, tanda lalu lintas di jalan raya, dan sebagainya, dengan itu membantu hiliran. modul Membuat keputusan dan tindakan yang betul dan munasabah. Kenderaan dengan keupayaan pemanduan autonomi biasanya dilengkapi dengan pelbagai jenis penderia pengumpulan maklumat, seperti penderia kamera pandangan sekeliling, penderia lidar, penderia radar gelombang milimeter, dsb., untuk memastikan kenderaan autonomi itu dapat melihat dan memahami persekitaran sekeliling dengan tepat. elemen , membolehkan kenderaan autonomi membuat keputusan yang betul semasa pemanduan autonomi. kepala

See all articles