Rumah Peranti teknologi AI Masukkan model Stable Diffusion ke dalam iPhone dan jadikan ia menjadi APP untuk menghasilkan gambar dalam satu minit

Masukkan model Stable Diffusion ke dalam iPhone dan jadikan ia menjadi APP untuk menghasilkan gambar dalam satu minit

Apr 13, 2023 pm 05:07 PM
app Model

Adakah sukar untuk menjalankan Stable Diffusion pada iPhone? Dalam artikel yang akan kami perkenalkan hari ini, penulis memberikan jawapan: ia tidak sukar, dan iPhone masih mempunyai baki prestasi 50%.

Seperti yang kita sedia maklum, setiap tahun Apple melancarkan iPhone baharu yang mendakwa lebih pantas dan lebih baik dalam setiap cara, terutamanya disebabkan oleh perkembangan pesat model visual dan penderia imej baharu. Ambil fotografi sebagai contoh Jika anda kembali ke 10 tahun yang lalu, bolehkah anda mengambil gambar berkualiti tinggi dengan iPhone Jawapannya tidak, kerana perkembangan teknologi secara beransur-ansur dalam 10 tahun, ia sudah cukup untuk meningkatkan teknologi fotografi telefon bimbit.

Disebabkan corak pembangunan (progresif) teknologi ini, akan tiba masanya sesetengah program akan menjadi hampir tidak boleh digunakan walaupun berjalan pada peralatan pengkomputeran terbaik. Tetapi program baharu dengan senario yang baru didayakan ini menarik perhatian sesetengah pengguna dan orang ramai bersedia untuk mengkajinya.

Pengarang artikel ini adalah salah seorang daripada mereka Dalam tempoh 3 minggu yang lalu, penulis telah membangunkan aplikasi yang boleh menjana (memanggil) imej melalui Stable Diffusion, dan kemudian tekan Edit anda. ia dengan cara yang anda suka. Apl hanya mengambil masa seminit untuk menjana imej pada iPhone 14 Pro terbaharu, menggunakan kira-kira 2GiB memori apl, serta kira-kira 2GiB data awal perlu dimuat turun untuk bermula.

Pautan kedai aplikasi: https://apps.apple.com/us/app/draw-things-ai-generation/id6444050820

Hasil ini menarik banyak perbincangan di kalangan netizen, sesetengah orang mula bimbang tentang penggunaan bateri telefon bimbit, dan bergurau: Ini bagus, tetapi ini nampaknya cara yang baik untuk menggunakan bateri telefon bimbit. .

Masukkan model Stable Diffusion ke dalam iPhone dan jadikan ia menjadi APP untuk menghasilkan gambar dalam satu minit

"Saya tidak pernah begitu gembira merasakan bahang iPhone saya."

" Ini Pada musim sejuk, anda boleh menggunakan telefon bimbit anda sebagai penghangat tangan. penilaian yang sangat tinggi.

"Ini luar biasa. Ia mengambil masa kira-kira 45 saat untuk menjana imej penuh pada iPhone SE3 saya - yang hampir sama kelajuannya dengan versi asal pada macbook M1 Pro saya Cepat! 》

Optimumkan memori dan perkakasan pada masa yang sama

Masukkan model Stable Diffusion ke dalam iPhone dan jadikan ia menjadi APP untuk menghasilkan gambar dalam satu minit

Bagaimana ini dilakukan? Seterusnya, mari kita lihat proses pelaksanaan pengarang:

Untuk menyelesaikan menjalankan Stable Diffusion pada iPhone dan masih menjimatkan 50% prestasi, cabaran utama ialah ia memerlukan 6GiB RAM Jalankan program pada peranti iPhone anda. 6GiB terdengar seperti banyak, tetapi jika anda menggunakan lebih daripada 2.8GiB pada peranti 6GiB atau 2GiB pada peranti 4GiB, iOS akan mematikan apl anda.

Jadi berapa banyak memori yang diperlukan oleh model Resapan Stabil untuk inferens?

Ini juga bermula dengan struktur model. Biasanya model Stable Diffusion mengandungi 4 bahagian: 1. Pengekod teks, yang menghasilkan vektor ciri teks untuk membimbing penjanaan imej; , yang secara perlahan-lahan menolak perwakilan terpendam imej daripada hingar 4. Penyahkod imej, yang menyahkod imej daripada perwakilan terpendam.

Modul 1, 2 dan 4 dijalankan sekali semasa inferens dan memerlukan maksimum kira-kira 1GiB. Model denoiser mengambil kira-kira 3.2GiB (titik terapung penuh) dan perlu dilaksanakan beberapa kali, jadi pengarang ingin mengekalkan modul dalam RAM lebih lama.

Model Resapan Stable asal memerlukan hampir 10GiB untuk melakukan inferens imej tunggal. Antara satu input (2x4x64x64) dan output (2x4x64x64), terdapat banyak lapisan output. Tidak semua output lapisan boleh digunakan semula dengan serta-merta, sesetengah daripadanya mesti mengekalkan beberapa parameter untuk kegunaan seterusnya (rangkaian sisa).

Selama beberapa waktu, penyelidik telah mengoptimumkan PyTorch Stable Diffusion. Mereka telah menempah ruang storan sementara untuk perpustakaan NVIDIA CUDNN dan CUBLAS yang digunakan oleh PyTorch Semuanya untuk mengurangkan penggunaan memori jalankan dengan kad serendah 4GiB.

Tetapi ia masih melebihi jangkaan penulis. Oleh itu, penulis mula memberi tumpuan kepada perkakasan dan pengoptimuman Apple.

Pada mulanya, pengarang menganggap 3.2GiB atau 1.6GiB separuh nombor titik terapung jika dia tidak mahu mencetuskan OOM Apple (Out of Memory, yang merujuk kepada memori yang diduduki oleh. Apl mencapai had sistem iOS untuk satu-satu Selepas apl menduduki had memori atas dan dibunuh secara paksa oleh sistem), pengarang mempunyai kira-kira 500MiB ruang untuk digunakan.

Soalan pertama, apakah saiz setiap output perantaraan?

Ternyata kebanyakannya agak kecil, di bawah 6MiB setiap satu (2x320x64x64). Rangka kerja yang digunakan oleh pengarang (s4nnc) boleh membungkusnya dengan munasabah ke dalam kurang daripada 50MiB untuk digunakan semula.

Perlu dinyatakan bahawa denoiser mempunyai mekanisme perhatian kendiri yang mengambil representasi terpendam imejnya sendiri sebagai input. Semasa pengiraan perhatian sendiri, terdapat matriks kelompok bersaiz 16x4096x4096, yang selepas menggunakan softmax adalah kira-kira 500MiB dalam FP16 dan boleh dilakukan "inplace", yang bermaksud ia boleh menulis semula inputnya dengan selamat tanpa Tidak akan rosak. Nasib baik, kedua-dua perpustakaan peringkat rendah Apple dan NVIDIA menyediakan pelaksanaan softmax di tempat, manakala perpustakaan peringkat tinggi seperti PyTorch tidak.

Jadi bolehkah ia benar-benar dilakukan menggunakan kira-kira 550MiB + 1.6GiB memori?

Pada perkakasan Apple, pilihan biasa untuk melaksanakan hujung belakang rangkaian saraf ialah menggunakan rangka kerja MPSGraph. Jadi penulis cuba terlebih dahulu menggunakan MPSGraph untuk melaksanakan semua operasi rangkaian saraf. Penggunaan memori puncak pada ketepatan FP16 adalah kira-kira 6GiB, yang jelas lebih banyak daripada penggunaan memori yang dijangkakan.

Pengarang menganalisis sebab secara terperinci Pertama, dia tidak menggunakan MPSGraph dengan cara TensorFlow yang biasa. MPSGraph memerlukan pengekodan keseluruhan graf pengiraan, kemudian menggunakan tensor input/output, mengendalikan peruntukan dalaman dan membenarkan pengguna menyerahkan keseluruhan graf untuk pelaksanaan.

Pengarang menggunakan MPSGraph sama seperti PyTorch - sebagai enjin pelaksanaan operasi. Untuk melaksanakan tugas inferens, banyak MPSGraphExecutables yang dikompilasi dilaksanakan pada baris gilir perintah Metal, setiap satunya mungkin memegang beberapa memori yang diperuntukkan perantaraan. Jika diserahkan sekali gus, semua arahan ini menyimpan memori yang diperuntukkan sehingga ia menyelesaikan pelaksanaan.

Cara mudah untuk menyelesaikan masalah ini ialah dengan melaraskan kelajuan penghantaran Tidak perlu menyerahkan semua arahan sekaligus. Malah, Metal mempunyai had 64 penyerahan serentak bagi setiap baris gilir. Penulis cuba menukar untuk menyerahkan 8 operasi pada satu masa, dan memori puncak telah dikurangkan kepada 4GiB.

Walau bagaimanapun, itu masih 2 GiB lebih daripada yang boleh dikendalikan oleh iPhone.

Untuk mengira perhatian diri menggunakan CUDA, terdapat helah biasa dalam pelaksanaan kod Stable Diffusion asal: gunakan pilih atur dan bukannya transpose. Silap mata ini berfungsi kerana CUBLAS boleh mengendalikan tensor berjalur permuted secara langsung, mengelakkan keperluan untuk menggunakan memori khusus untuk menukar tensor.

Tetapi MPSGraph tidak mempunyai sokongan tensor berperingkat, tensor yang diubah suai akan ditukar secara dalaman pula, yang memerlukan peruntukan memori perantaraan. Dengan mengalihkan secara eksplisit, peruntukan akan dikendalikan oleh lapisan peringkat lebih tinggi, mengelakkan ketidakcekapan dalaman MPSGraph. Menggunakan helah ini, penggunaan memori akan hampir kepada 3GiB.

Ternyata setakat iOS 16.0, MPSGraph tidak lagi boleh membuat keputusan peruntukan optimum untuk softmax. Walaupun tensor input dan output kedua-duanya menghala ke data yang sama, MPSGraph memperuntukkan tensor keluaran tambahan dan kemudian menyalin hasilnya ke lokasi yang ditunjukkan.

Pengarang mendapati bahawa menggunakan alternatif Metal Performance Shaders sesuai dengan bil dengan sempurna dan mengurangkan penggunaan memori kepada 2.5GiB tanpa sebarang prestasi.

Sebaliknya, inti GEMM MPSGraph memerlukan transposisi dalaman. Transpose eksplisit juga tidak akan membantu di sini, kerana transpose ini bukan operasi "inplace" pada lapisan peringkat lebih tinggi, dan untuk tensor saiz 500MiB tertentu, peruntukan tambahan ini tidak dapat dielakkan. Dengan bertukar kepada Metal Performance Shaders, pengarang projek menuntut semula 500MiB lagi dengan penalti prestasi kira-kira 1%, akhirnya mengurangkan penggunaan memori kepada 2GiB yang ideal.

Atas ialah kandungan terperinci Masukkan model Stable Diffusion ke dalam iPhone dan jadikan ia menjadi APP untuk menghasilkan gambar dalam satu minit. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Langkah dan langkah berjaga-jaga untuk mendaftarkan ID Apple Hong Kong (menikmati kelebihan unik Kedai Apple Hong Kong) Langkah dan langkah berjaga-jaga untuk mendaftarkan ID Apple Hong Kong (menikmati kelebihan unik Kedai Apple Hong Kong) Sep 02, 2024 pm 03:47 PM

Produk dan perkhidmatan Apple sentiasa digemari oleh pengguna di seluruh dunia. Mendaftarkan ID Apple Hong Kong akan membawa lebih banyak kemudahan dan keistimewaan kepada pengguna Mari kita lihat langkah-langkah untuk mendaftarkan ID Apple Hong Kong dan perkara yang perlu anda perhatikan. Cara mendaftar ID Apple Hong Kong Apabila menggunakan peranti Apple, banyak aplikasi dan fungsi memerlukan menggunakan ID Apple untuk log masuk. Jika anda ingin memuat turun aplikasi dari Hong Kong atau menikmati kandungan keutamaan Hong Kong AppStore, adalah sangat perlu untuk mendaftarkan ID Apple Hong Kong. Artikel ini akan memperincikan langkah tentang cara mendaftar ID Apple Hong Kong dan perkara yang perlu anda perhatikan. Langkah: Pilih bahasa dan wilayah: Cari pilihan "Tetapan" pada peranti Apple anda dan masukkan

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles