


Stable Diffusion-XL dibuka untuk beta awam, membebaskan anda daripada gesaan yang panjang dan menyusahkan!
Sejak Midjourney mengeluarkan v5, terdapat peningkatan yang ketara dalam realisme aksara dan butiran jari dalam imej yang dijana, dan peningkatan juga telah dibuat dalam ketepatan pemahaman segera, kepelbagaian estetik dan kemajuan bahasa.
Sebaliknya, walaupun Stable Diffusion adalah percuma dan sumber terbuka, anda perlu menulis senarai panjang gesaan setiap kali dan menjana imej berkualiti tinggi bergantung pada kad lukisan beberapa kali.
Baru-baru ini, Stability AI secara rasmi mengumumkan bahawa Stable Diffusion XL yang sedang dibangunkan telah mula diuji untuk orang ramai dan kini tersedia untuk percubaan percuma pada Clipdrop platform.
Pautan percubaan: https://clipdrop.co/stable-diffusion
Gim di rumah minimalis dengan lantai getah, TV di dinding, bangku berat, bola ubat, dumbel, tikar yoga, berteknologi tinggi peralatan, perincian tinggi, tersusun dan cekap.
Gim di rumah ringkas, lantai getah, TV yang dipasang di dinding, bangku berat, bola ubat, dumbel, tikar yoga, Peralatan berteknologi tinggi, perincian tinggi, organisasi dan kecekapan
Berikut adalah beberapa contoh yang dikeluarkan secara rasmi oleh SD-XL Dapat dilihat bahawa kualiti imej sudah sangat mengagumkan .
SD-XL: Versi sumber terbuka Midjourney
Mengenai maklumat khusus model Stable Diffusion XL, pegawai itu melakukannya tidak mendedahkan banyak, Pada masa ini, kita hanya tahu bahawa ia adalah model dengan seni bina yang serupa dengan model v2, tetapi dengan skala dan kiraan parameter yang lebih besar.
SD-v2.1 termasuk 900 juta parameter, SD-XL mempunyai kira-kira 2.3 bilion parameter, dan Emad berkata bahawa versi rasmi mungkin mengeluarkan versi suling tambahan yang lebih kecil.
Peningkatan SD-XL berbanding versi sebelumnya adalah seperti berikut:
- Gunakan gesaan deskriptif yang lebih pendek untuk menjana Imej berkualiti tinggi
- boleh menjana imej yang sesuai dengan segera dengan lebih baik
- Struktur badan manusia dalam imej lebih munasabah
- Berbanding dengan versi v2.1 dan v1.5 (sebahagian kecilnya), gambar yang dihasilkan oleh SD-XL lebih sesuai dengan estetika awam
- Negatif gesaan adalah OK Pilihan
- Potret yang terhasil adalah lebih realistik
- Teks dalam imej lebih jelas
Sila ambil perhatian bahawa SD-XL mungkin tidak serasi dengan versi pemalam sebelumnya.
Teks yang jelas dan boleh dibaca
Dalam siri v1 dan versi v2.1 model Stable Diffusion, ia tidak dijana dalam imej Keupayaan membaca teks.
Walaupun maklumat teks yang dijana oleh SD-XL tidak selalu tepat, ia memberikan peningkatan yang besar.
Foto seorang wanita sedang duduk di restoran memegang menu yang tertera “Menu”
Seorang wanita sedang duduk di sebuah restoran sambil memegang menu dengan tulisan "Menu"
Foto seorang lelaki memegang papan tanda bertulis “Stable Diffusion” Stable Diffusion"
a perempuan muda memegang papan tanda bertulis "Stable Diffusion", menonjolkan rambut, duduk di luar restoran, mata coklat, memakai gaun , lampu sisi
Seorang wanita muda memegang papan tanda bertulis "Stable Diffusion" dengan rambut diserlahkan duduk di luar restoran, mata coklat , memakai skirt, lampu sisi
Struktur manusia yang lebih baik
Stable Diffusion sentiasa mengalami banyak masalah dalam menjana anatomi manusia, mempunyai lebih banyak kaki dan kurang lengan adalah masalah yang sangat biasa Ia biasanya perlu menggunakan fungsi inpaint untuk membetulkan lagi butiran imej atau menggunakan Pose Terbuka ControlNet berfungsi untuk menyalin postur badan manusia daripada imej rujukan.Contohnya, apabila SD-v1.5 menjana imej yoga, badan manusia yang herot sering muncul.
Foto seorang wanita dalam pakaian yoga, pose segi tiga, pantai pada waktu petang, pencahayaan rim
Foto wanita dalam pakaian yoga, pose segi tiga, pantai pada waktu malam, pencahayaan tepi
Walaupun imej yang dihasilkan oleh SD-XL tidak sempurna, mereka telah mencapai kemajuan yang ketara dalam postur manusia.
Lebih estetik
Contohnya, dengan tema rumah yang sama, SD-XL Ini menghasilkan foto yang lebih simetri dan mempunyai kesan visual yang lebih baik.
SD-XL juga mempunyai peningkatan ketara dalam foto potret.
gambar gambar seorang wanita
Foto
Imej yang lebih sesuai dengan gesaan
SD-XL boleh lebih memahami gesaan input dan menjana imej yang lebih tepat.
Sebagai contoh, mengambil duotone (dua warna) sebagai contoh, SD-v1.5 hanya akan menjana imej hitam dan putih, manakala SD-XL boleh menjana imej dwi-nada dengan pelbagai warna.
Keupayaan untuk memahami gesaan telah bertambah baik berbanding model v1.
potret duotone seorang wanita
Dua nada potret
Oleh kerana SD-XL tergolong dalam model siri v2 yang sama, saiz model teks lebih besar dan perkataan gesaan boleh difahami dengan lebih baik daripada model v1.
Sebagai contoh, dalam contoh di bawah, model v1.5 tidak boleh memahami dua subjek (robot dan manusia) dalam imej, tetapi SD-XL Model ini boleh menghasilkan imej biasa (walaupun robot masih tidak cukup besar).
rakan robot besar duduk di sebelah manusia, hantu dalam gaya cangkerang, kertas dinding anime
Rakan robot besar yang duduk di sebelah kertas dinding anime gaya Ghost in the Shell manusia
seorang lelaki muda, sorotan rambut, mata coklat, berbaju putih dan jean biru di pantai dengan latar belakang gunung berapi
Seorang lelaki muda, dengan rambut dicelup Mata coklat yang sangat terang, memakai baju putih dan seluar jeans biru, berdiri di pantai dengan latar belakang gunung berapi
gaya artistik
Dari segi gaya artistik, SD-XL tidak dipertingkatkan dengan ketara, dan ia berbeza daripada versi sebelumnya.
Sebagai contoh, dua model menjana imej gaya Edward Hopper dari sudut yang berbeza.
Bandar New York oleh Edward Hopper
Bandar New York oleh Edward Hopper
Dalam gaya Leonid Afmov, SD-v1.5 lebih tepat, SD-XL tidak mempunyai sapuan berus papan berwarna-warni yang jelas.
Bandar New York oleh Leonid Afremov
Leonid Afemov Drawn New York
Dalam gaya William-Adolphe Bouguereau, kedua-dua V1.5 dan SDXL boleh menjana beberapa kandungan yang serupa, antaranya SD-XL lebih dekat dengan akademik klasik gaya yang dicipta oleh Bouguereau Painting, dan lebih banyak perincian muka.
Potret wanita cantik oleh William-Adolphe Bouguereau
Potret wanita cantik yang dilukis oleh William-Adolphe Bouguereau
Masalah perubahan gaya
Selepas menambah beberapa kata kunci yang tidak berkaitan, model itu Gaya mungkin berubah secara tiba-tiba.
Sebagai contoh, jana imej gaya foto dahulu.
seorang lelaki muda, rambut sorotan, mata coklat, berbaju putih dan jean biru di pantai dengan latar belakang gunung berapi
Seorang lelaki muda dengan rambut dicelup cerah dan mata coklat memakai baju putih dan seluar jeans biru berdiri di pantai dengan gunung berapi di latar belakang
Selepas menambah selendang kuning, gaya imej menjadi gaya kartun.
seorang lelaki muda, serlahan rambut, mata coklat, berpakaian selendang kuning, berbaju putih dan jean biru di pantai dengan latar belakang gunung berapi
Seorang lelaki muda dengan rambut dicelup cerah, mata coklat, memakai selendang kuning, memakai kemeja putih dan seluar jeans biru , berdiri di pantai dengan gunung berapi sebagai latar belakang
Masalahnya mungkin disebabkan isu pratonton saya tidak tahu sama ada isu ini boleh diselesaikan selepas rasmi lepaskan.
Atas ialah kandungan terperinci Stable Diffusion-XL dibuka untuk beta awam, membebaskan anda daripada gesaan yang panjang dan menyusahkan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Anotasi teks ialah kerja label atau teg yang sepadan dengan kandungan tertentu dalam teks. Tujuan utamanya adalah untuk memberikan maklumat tambahan kepada teks untuk analisis dan pemprosesan yang lebih mendalam, terutamanya dalam bidang kecerdasan buatan. Anotasi teks adalah penting untuk tugas pembelajaran mesin yang diawasi dalam aplikasi kecerdasan buatan. Ia digunakan untuk melatih model AI untuk membantu memahami maklumat teks bahasa semula jadi dengan lebih tepat dan meningkatkan prestasi tugasan seperti klasifikasi teks, analisis sentimen dan terjemahan bahasa. Melalui anotasi teks, kami boleh mengajar model AI untuk mengenali entiti dalam teks, memahami konteks dan membuat ramalan yang tepat apabila data baharu yang serupa muncul. Artikel ini terutamanya mengesyorkan beberapa alat anotasi teks sumber terbuka yang lebih baik. 1.LabelStudiohttps://github.com/Hu

Anotasi imej ialah proses mengaitkan label atau maklumat deskriptif dengan imej untuk memberi makna dan penjelasan yang lebih mendalam kepada kandungan imej. Proses ini penting untuk pembelajaran mesin, yang membantu melatih model penglihatan untuk mengenal pasti elemen individu dalam imej dengan lebih tepat. Dengan menambahkan anotasi pada imej, komputer boleh memahami semantik dan konteks di sebalik imej, dengan itu meningkatkan keupayaan untuk memahami dan menganalisis kandungan imej. Anotasi imej mempunyai pelbagai aplikasi, meliputi banyak bidang, seperti penglihatan komputer, pemprosesan bahasa semula jadi dan model penglihatan graf Ia mempunyai pelbagai aplikasi, seperti membantu kenderaan dalam mengenal pasti halangan di jalan raya, dan membantu dalam proses. pengesanan dan diagnosis penyakit melalui pengecaman imej perubatan. Artikel ini terutamanya mengesyorkan beberapa alat anotasi imej sumber terbuka dan percuma yang lebih baik. 1.Makesen

Khalayak yang biasa dengan "Westworld" tahu bahawa rancangan ini terletak di taman tema dewasa berteknologi tinggi yang besar di dunia masa hadapan Robot mempunyai keupayaan tingkah laku yang serupa dengan manusia, dan boleh mengingati apa yang mereka lihat dan dengar, serta mengulangi jalan cerita teras. Setiap hari, robot ini akan ditetapkan semula dan dikembalikan kepada keadaan asalnya Selepas keluaran kertas kerja Stanford "Generative Agents: Interactive Simulacra of Human Behavior", senario ini tidak lagi terhad kepada filem dan siri TV telah berjaya menghasilkan semula ini tempat kejadian di "Bandar Maya" Smallville 》Alamat kertas peta gambaran keseluruhan: https://arxiv.org/pdf/2304.03442v1.pdf

Teknologi pengesanan dan pengecaman muka adalah teknologi yang agak matang dan digunakan secara meluas. Pada masa ini, bahasa aplikasi Internet yang paling banyak digunakan ialah JS Melaksanakan pengesanan muka dan pengecaman pada bahagian hadapan Web mempunyai kelebihan dan kekurangan berbanding dengan pengecaman muka bahagian belakang. Kelebihan termasuk mengurangkan interaksi rangkaian dan pengecaman masa nyata, yang sangat memendekkan masa menunggu pengguna dan meningkatkan pengalaman pengguna termasuk: terhad oleh saiz model, ketepatannya juga terhad. Bagaimana untuk menggunakan js untuk melaksanakan pengesanan muka di web? Untuk melaksanakan pengecaman muka di Web, anda perlu biasa dengan bahasa dan teknologi pengaturcaraan yang berkaitan, seperti JavaScript, HTML, CSS, WebRTC, dll. Pada masa yang sama, anda juga perlu menguasai visi komputer yang berkaitan dan teknologi kecerdasan buatan. Perlu diingat bahawa kerana reka bentuk bahagian Web

SOTA baharu untuk keupayaan memahami dokumen multimodal! Pasukan Alibaba mPLUG mengeluarkan kerja sumber terbuka terkini mPLUG-DocOwl1.5, yang mencadangkan satu siri penyelesaian untuk menangani empat cabaran utama pengecaman teks imej resolusi tinggi, pemahaman struktur dokumen am, arahan mengikut dan pengenalan pengetahuan luaran. Tanpa berlengah lagi, mari kita lihat kesannya dahulu. Pengecaman satu klik dan penukaran carta dengan struktur kompleks ke dalam format Markdown: Carta gaya berbeza tersedia: Pengecaman dan kedudukan teks yang lebih terperinci juga boleh dikendalikan dengan mudah: Penjelasan terperinci tentang pemahaman dokumen juga boleh diberikan: Anda tahu, "Pemahaman Dokumen " pada masa ini Senario penting untuk pelaksanaan model bahasa yang besar. Terdapat banyak produk di pasaran untuk membantu pembacaan dokumen. Sesetengah daripada mereka menggunakan sistem OCR untuk pengecaman teks dan bekerjasama dengan LLM untuk pemprosesan teks.

Izinkan saya memperkenalkan kepada anda projek sumber terbuka AIGC terkini-AnimagineXL3.1. Projek ini adalah lelaran terkini model teks-ke-imej bertema anime, yang bertujuan untuk menyediakan pengguna pengalaman penjanaan imej anime yang lebih optimum dan berkuasa. Dalam AnimagineXL3.1, pasukan pembangunan menumpukan pada mengoptimumkan beberapa aspek utama untuk memastikan model mencapai tahap prestasi dan kefungsian yang baharu. Pertama, mereka mengembangkan data latihan untuk memasukkan bukan sahaja data watak permainan daripada versi sebelumnya, tetapi juga data daripada banyak siri anime terkenal lain ke dalam set latihan. Langkah ini memperkayakan pangkalan pengetahuan model, membolehkannya memahami pelbagai gaya dan watak anime dengan lebih lengkap. AnimagineXL3.1 memperkenalkan set teg khas dan estetika baharu

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu

Alamat kertas: https://arxiv.org/abs/2307.09283 Alamat kod: https://github.com/THU-MIG/RepViTRepViT berprestasi baik dalam seni bina ViT mudah alih dan menunjukkan kelebihan yang ketara. Seterusnya, kami meneroka sumbangan kajian ini. Disebutkan dalam artikel bahawa ViT ringan biasanya berprestasi lebih baik daripada CNN ringan pada tugas visual, terutamanya disebabkan oleh modul perhatian diri berbilang kepala (MSHA) mereka yang membolehkan model mempelajari perwakilan global. Walau bagaimanapun, perbezaan seni bina antara ViT ringan dan CNN ringan belum dikaji sepenuhnya. Dalam kajian ini, penulis menyepadukan ViT ringan ke dalam yang berkesan
