Gambar dalam otak anda kini boleh dipulihkan dalam definisi tinggi
Dalam beberapa tahun kebelakangan ini, kemajuan besar telah dicapai dalam bidang penjanaan imej, terutamanya dalam penjanaan teks ke imej: selagi kita menggunakan teks untuk menerangkan pemikiran kita, AI boleh menjana imej novel dan realistik.
Tetapi sebenarnya kita boleh melangkah lebih jauh - langkah menukar idea dalam minda kepada teks boleh ditinggalkan, dan penciptaan imej boleh dikawal terus melalui aktiviti otak (seperti rakaman EEG (electroencephalogram).
Kaedah penjanaan "thinking to image" ini mempunyai prospek aplikasi yang luas. Sebagai contoh, ia boleh meningkatkan kecekapan penciptaan artistik dan membantu orang menangkap ilham sekejap; ia juga mungkin untuk memvisualisasikan impian orang pada waktu malam, malah boleh digunakan dalam psikoterapi untuk membantu kanak-kanak autistik dan pesakit gangguan bahasa.
Baru-baru ini, penyelidik dari Tsinghua University Shenzhen International Graduate School, Tencent AI Lab dan Pengcheng Laboratory bersama-sama menerbitkan kertas penyelidikan tentang "Thinking to Image", menggunakan model teks-ke-imej yang telah terlatih (seperti Stable Diffusion)' keupayaan penjanaan berkuasa menjana imej berkualiti tinggi terus daripada isyarat EEG.
Gambar
Alamat kertas: https://arxiv.org/pdf/2306.16934.pdf
Alamat projek: https://github. Gambaran keseluruhan kaedah
Beberapa penyelidikan berkaitan terkini (seperti MinD-Vis) cuba membina semula maklumat visual berdasarkan fMRI (isyarat pengimejan resonans magnetik berfungsi). Mereka telah menunjukkan kebolehlaksanaan menggunakan aktiviti otak untuk membina semula hasil yang berkualiti tinggi. Walau bagaimanapun, kaedah ini masih jauh daripada penggunaan isyarat otak yang ideal untuk penciptaan yang pantas dan cekap Ini terutamanya disebabkan oleh dua sebab:
Pertama, peralatan fMRI tidak mudah alih dan memerlukan profesional untuk beroperasi, jadi menangkap isyarat fMRI Sangat. sukar;
Kedua, kos pengumpulan data fMRI adalah tinggi, yang akan sangat menghalang penggunaan kaedah ini dalam penciptaan seni sebenar.
Sebaliknya, EEG ialah kaedah bukan invasif, kos rendah untuk merekod aktiviti elektrik otak, dan kini terdapat produk komersial mudah alih di pasaran yang boleh mendapatkan isyarat EEG.
Tetapi masih terdapat dua cabaran utama dalam mencapai penjanaan "thought-to-image":
1) Isyarat EEG ditangkap melalui kaedah bukan invasif, jadi ia sememangnya bising. Di samping itu, data EEG adalah terhad dan perbezaan individu tidak boleh diabaikan. Jadi, bagaimana untuk mendapatkan perwakilan semantik yang berkesan dan mantap daripada isyarat EEG di bawah banyak kekangan?
2) Ruang teks dan imej dalam Resapan Stabil dijajarkan dengan baik kerana menggunakan CLIP dan latihan pada sebilangan besar pasangan imej teks. Walau bagaimanapun, isyarat EEG mempunyai ciri tersendiri dan ruangnya agak berbeza daripada teks dan imej. Bagaimana untuk menyelaraskan EEG, teks dan ruang imej pada EEG terhad dan bising - pasangan imej?
Untuk menangani cabaran pertama, kajian ini mencadangkan untuk menggunakan sejumlah besar data EEG untuk melatih perwakilan EEG dan bukannya pasangan imej EEG yang jarang berlaku. Kajian ini menggunakan kaedah pemodelan isyarat bertopeng untuk meramalkan token yang hilang berdasarkan petunjuk kontekstual.
Tidak seperti MAE dan MinD-Vis, yang menganggap input sebagai imej dua dimensi dan menutup maklumat spatial, kajian ini mempertimbangkan ciri temporal isyarat EEG dan mendalami semantik di sebalik perubahan temporal dalam otak manusia. . Kajian ini menyekat sebahagian token secara rawak dan kemudian membina semula token yang disekat ini dalam domain masa. Dengan cara ini, pengekod pra-latihan dapat membangunkan pemahaman mendalam tentang data EEG daripada individu yang berbeza dan aktiviti otak yang berbeza.
Untuk cabaran kedua, penyelesaian sebelumnya biasanya memperhalusi model Stable Diffusion secara langsung, menggunakan sebilangan kecil pasangan data yang bising untuk latihan. Walau bagaimanapun, sukar untuk mempelajari penjajaran tepat antara isyarat otak (cth., EEG dan fMRI) dan ruang teks dengan hanya memperhalusi SD hujung ke hujung dengan kehilangan pembinaan semula imej akhir. Oleh itu, pasukan penyelidik mencadangkan penggunaan penyeliaan CLIP tambahan untuk membantu mencapai penjajaran ruang EEG, teks dan imej.
Secara khusus, SD sendiri menggunakan pengekod teks CLIP untuk menjana pembenaman teks, yang sangat berbeza daripada pembenaman EEG pra-latihan bertopeng pada peringkat sebelumnya. Manfaatkan pengekod imej CLIP untuk mengekstrak benam imej kaya yang sejajar dengan pembenaman teks CLIP. Pembenaman imej CLIP ini kemudiannya digunakan untuk memperhalusi lagi perwakilan pembenaman EEG. Oleh itu, benam ciri EEG yang dipertingkatkan boleh diselaraskan dengan baik dengan imej CLIP dan benam teks dan lebih sesuai untuk penjanaan imej SD, sekali gus meningkatkan kualiti imej yang dijana.
Berdasarkan dua penyelesaian yang direka dengan teliti di atas, penyelidikan ini mencadangkan kaedah baharu DreamDiffusion. DreamDiffusion menjana imej berkualiti tinggi dan realistik daripada isyarat electroencephalogram (EEG).
Pictures
specifically, DreamDiffusion terutamanya terdiri daripada tiga bahagian:
1) Isyarat topeng pra-latihan untuk mencapai encoder EEG yang berkesan dan mantap; Peresapan dan pasangan imej EEG terhad untuk penalaan halus;
3) Gunakan pengekod CLIP untuk menjajarkan ruang EEG, teks dan imej.
Pertama, penyelidik menggunakan data EEG dengan banyak bunyi dan menggunakan pemodelan isyarat topeng untuk melatih pengekod EEG dan mengekstrak pengetahuan kontekstual. Pengekod EEG yang terhasil kemudiannya digunakan untuk menyediakan ciri bersyarat untuk Resapan Stabil melalui mekanisme perhatian silang.
Pictures
Untuk meningkatkan keserasian ciri EEG dengan Stable Diffusion, penyelidik menyelaraskan EEG, teks dan imej lagi dengan mengurangkan jarak antara benam EEG dan CLIP-imej embedding. proses.
Eksperimen dan Analisis
Perbandingan dengan Brain2Image
Para penyelidik membandingkan kaedah dalam artikel ini dengan Brain2Image. Brain2Image menggunakan model generatif tradisional, iaitu pengekod auto variasi (VAE) dan rangkaian musuh generatif (GAN), untuk penukaran daripada EEG kepada imej. Walau bagaimanapun, Brain2Image hanya memberikan hasil untuk beberapa kategori dan tidak menyediakan pelaksanaan rujukan.
Dengan mengambil kira perkara ini, kajian ini melakukan perbandingan kualitatif bagi beberapa kategori yang dibentangkan dalam kertas Brain2Image (iaitu kapal terbang, jack-o-lantern dan panda). Untuk memastikan perbandingan yang adil, penyelidik menggunakan strategi penilaian yang sama seperti yang diterangkan dalam kertas Brain2Image dan menunjukkan keputusan yang dihasilkan oleh kaedah yang berbeza dalam Rajah 5 di bawah.
Baris pertama rajah di bawah menunjukkan hasil yang dijana oleh Brain2Image, dan baris terakhir dijana oleh DreamDiffusion, kaedah yang dicadangkan oleh penyelidik. Ia boleh dilihat bahawa kualiti imej yang dijana oleh DreamDiffusion adalah jauh lebih tinggi daripada yang dihasilkan oleh Brain2Image, yang juga mengesahkan keberkesanan kaedah ini.
Pictures
bablation Experiment
Peranan pra-latihan
: Untuk menunjukkan keberkesanan data EEG berskala besar, kajian ini menggunakan pengekod yang tidak terlatih untuk melatih Sahkan berbilang model. Salah satu model adalah sama dengan model penuh, manakala model lain hanya mempunyai dua lapisan pengekodan EEG untuk mengelak daripada overfitting data. Semasa proses latihan, kedua-dua model telah dilatih dengan/tanpa penyeliaan CLIP, dan hasilnya ditunjukkan dalam lajur 1 hingga 4 Model dalam Jadual 1. Ia dapat dilihat bahawa ketepatan model tanpa pra-latihan dikurangkan.
nisbah topeng
: Kertas kerja ini juga menyiasat penggunaan data EEG untuk menentukan nisbah topeng optimum untuk pra-latihan MSM. Seperti yang ditunjukkan dalam lajur 5 hingga 7 Model dalam Jadual 1, nisbah topeng yang terlalu tinggi atau terlalu rendah boleh menjejaskan prestasi model. Ketepatan keseluruhan tertinggi dicapai apabila nisbah topeng ialah 0.75. Penemuan ini penting kerana ia menunjukkan bahawa, tidak seperti pemprosesan bahasa semula jadi, yang biasanya menggunakan nisbah topeng rendah, nisbah topeng tinggi adalah pilihan yang lebih baik apabila melakukan MSM pada EEG. Penjajaran KLIP
: Salah satu kunci kepada kaedah ini ialah menjajarkan perwakilan EEG kepada imej melalui pengekod CLIP. Kajian ini menjalankan eksperimen untuk mengesahkan keberkesanan kaedah ini, dan hasilnya ditunjukkan dalam Jadual 1. Dapat diperhatikan bahawa prestasi model menurun dengan ketara apabila penyeliaan CLIP tidak digunakan. Malah, seperti yang ditunjukkan di sudut kanan bawah Rajah 6, menggunakan CLIP untuk menyelaraskan ciri EEG masih boleh menghasilkan hasil yang munasabah walaupun tanpa pra-latihan, yang menyerlahkan kepentingan penyeliaan CLIP dalam kaedah ini. Gambar
Atas ialah kandungan terperinci Gambar dalam otak anda kini boleh dipulihkan dalam definisi tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Untuk membuat jadual data menggunakan phpmyadmin, langkah -langkah berikut adalah penting: Sambungkan ke pangkalan data dan klik tab baru. Namakan jadual dan pilih enjin penyimpanan (disyorkan innoDB). Tambah butiran lajur dengan mengklik butang Tambah Lajur, termasuk nama lajur, jenis data, sama ada untuk membenarkan nilai null, dan sifat lain. Pilih satu atau lebih lajur sebagai kunci utama. Klik butang Simpan untuk membuat jadual dan lajur.

Mewujudkan pangkalan data Oracle tidak mudah, anda perlu memahami mekanisme asas. 1. Anda perlu memahami konsep pangkalan data dan Oracle DBMS; 2. Menguasai konsep teras seperti SID, CDB (pangkalan data kontena), PDB (pangkalan data pluggable); 3. Gunakan SQL*Plus untuk membuat CDB, dan kemudian buat PDB, anda perlu menentukan parameter seperti saiz, bilangan fail data, dan laluan; 4. Aplikasi lanjutan perlu menyesuaikan set aksara, memori dan parameter lain, dan melakukan penalaan prestasi; 5. Beri perhatian kepada ruang cakera, keizinan dan parameter, dan terus memantau dan mengoptimumkan prestasi pangkalan data. Hanya dengan menguasai ia dengan mahir memerlukan amalan yang berterusan, anda boleh benar -benar memahami penciptaan dan pengurusan pangkalan data Oracle.

Untuk membuat pangkalan data Oracle, kaedah biasa adalah menggunakan alat grafik DBCA. Langkah -langkah adalah seperti berikut: 1. Gunakan alat DBCA untuk menetapkan DBName untuk menentukan nama pangkalan data; 2. Tetapkan SYSPASSWORD dan SYSTEMPASSWORD kepada kata laluan yang kuat; 3. Tetapkan aksara dan NationalCharacterset ke Al32utf8; 4. Tetapkan MemorySize dan Tablespacesize untuk menyesuaikan mengikut keperluan sebenar; 5. Tentukan laluan logfile. Kaedah lanjutan dibuat secara manual menggunakan arahan SQL, tetapi lebih kompleks dan terdedah kepada kesilapan. Perhatikan kekuatan kata laluan, pemilihan set aksara, saiz dan memori meja makan

Inti dari pernyataan Oracle SQL adalah pilih, masukkan, mengemas kini dan memadam, serta aplikasi fleksibel dari pelbagai klausa. Adalah penting untuk memahami mekanisme pelaksanaan di sebalik pernyataan, seperti pengoptimuman indeks. Penggunaan lanjutan termasuk subqueries, pertanyaan sambungan, fungsi analisis, dan PL/SQL. Kesilapan umum termasuk kesilapan sintaks, isu prestasi, dan isu konsistensi data. Amalan terbaik pengoptimuman prestasi melibatkan menggunakan indeks yang sesuai, mengelakkan pilih *, mengoptimumkan di mana klausa, dan menggunakan pembolehubah terikat. Menguasai Oracle SQL memerlukan amalan, termasuk penulisan kod, debugging, berfikir dan memahami mekanisme asas.

Panduan Operasi Lapangan di MySQL: Tambah, mengubah suai, dan memadam medan. Tambahkan medan: alter table table_name tambah column_name data_type [not null] [default default_value] [primary kekunci] [AUTO_INCREMENT] Modify Field: Alter Table Table_Name Ubah suai column_name data_type [not null] [default default_value] [Kunci Utama]

Kekangan integriti pangkalan data Oracle dapat memastikan ketepatan data, termasuk: tidak null: nilai null dilarang; Unik: Keunikan menjamin, membolehkan nilai null tunggal; Kunci utama: kekangan utama utama, menguatkan unik, dan melarang nilai null; Kunci asing: Mengekalkan hubungan antara jadual, kunci asing merujuk kepada kunci utama jadual utama; Semak: Hadkan nilai lajur mengikut syarat.

Pertanyaan bersarang adalah cara untuk memasukkan pertanyaan lain dalam satu pertanyaan. Mereka digunakan terutamanya untuk mendapatkan data yang memenuhi syarat kompleks, mengaitkan pelbagai jadual, dan mengira nilai ringkasan atau maklumat statistik. Contohnya termasuk mencari pekerja di atas gaji purata, mencari pesanan untuk kategori tertentu, dan mengira jumlah jumlah pesanan bagi setiap produk. Apabila menulis pertanyaan bersarang, anda perlu mengikuti: Tulis subqueries, tulis hasilnya kepada pertanyaan luar (dirujuk dengan alias atau sebagai klausa), dan mengoptimumkan prestasi pertanyaan (menggunakan indeks).

Log Tomcat adalah kunci untuk mendiagnosis masalah kebocoran memori. Dengan menganalisis log tomcat, anda boleh mendapatkan wawasan mengenai kelakuan memori dan pengumpulan sampah (GC), dengan berkesan mencari dan menyelesaikan kebocoran memori. Berikut adalah cara menyelesaikan masalah kebocoran memori menggunakan log Tomcat: 1. GC Log Analysis terlebih dahulu, membolehkan pembalakan GC terperinci. Tambah pilihan JVM berikut kepada parameter permulaan TOMCAT: -XX: PrintGCDetails-XX: PrintGCDATestamps-XLogGC: GC.LOG Parameter ini akan menghasilkan log GC terperinci (GC.LOG), termasuk maklumat seperti jenis GC, saiz dan masa yang dikitar semula. Analisis GC.Log
