


NeurIPS23 |. 'Bacaan Otak' menyahkod aktiviti otak dan membina semula dunia visual
Dalam kertas kerja NeurIPS23 ini, penyelidik dari Universiti Leuven, Universiti Nasional Singapura dan Institut Automasi Akademi Sains China mencadangkan "teknologi membaca otak" visual yang boleh menganalisis aktiviti otak manusia pada resolusi tinggi imej yang anda lihat dengan mata anda sendiri.
Dalam bidang neurosains kognitif, orang ramai menyedari bahawa persepsi manusia bukan sahaja dipengaruhi oleh rangsangan objektif, tetapi juga sangat dipengaruhi oleh pengalaman lalu. Faktor-faktor ini bekerjasama untuk mewujudkan aktiviti yang kompleks di dalam otak. Oleh itu, menyahkod maklumat visual daripada aktiviti otak menjadi tugas penting. Antaranya, pengimejan resonans magnetik berfungsi (fMRI), sebagai teknologi bukan invasif yang cekap, memainkan peranan penting dalam memulihkan dan menganalisis maklumat visual, terutamanya kategori imej Walau bagaimanapun, disebabkan oleh ciri-ciri bunyi isyarat fMRI dan penglihatan otak kerumitan perwakilan, tugas ini menghadapi cabaran yang besar. Untuk menangani masalah ini, kertas kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang bertujuan untuk mengenal pasti dan mengeluarkan bunyi dalam aktiviti otak, dan memfokuskan pada menghurai corak pengaktifan saraf yang penting untuk pembinaan semula visual, berjaya membina semula imej peringkat tinggi dari otak. aktiviti. resolusi dan imej tepat dari segi semantik.
Pautan kertas: https://arxiv.org/abs/2305.17214
Pautan projek: https://github.com/soinx0629/vis_dec_neurips/
Kaedah pembelajaran yang dicadangkan dalam kertas kontrastif , model silang Model silang maklumat negeri dan penyebaran telah mencapai hampir 40% peningkatan dalam penunjuk penilaian pada set data fMRI yang berkaitan berbanding model terbaik sebelum ini Kualiti, kebolehbacaan dan perkaitan semantik imej yang dihasilkan semuanya lebih baik daripada kaedah sedia ada. Peningkatan yang ketara. Kerja ini membantu memahami mekanisme persepsi visual otak manusia dan bermanfaat untuk mempromosikan penyelidikan mengenai teknologi antara muka otak-komputer visual. Kod yang berkaitan adalah sumber terbuka.
Walaupun pengimejan resonans magnetik berfungsi (fMRI) digunakan secara meluas untuk menganalisis tindak balas saraf, membina semula imej visual daripada datanya dengan tepat masih mencabar, terutamanya kerana data fMRI mengandungi hingar daripada pelbagai sumber, yang mungkin menutupi corak pengaktifan saraf. Di samping itu, proses tindak balas saraf yang dicetuskan oleh rangsangan visual adalah kompleks dan berbilang peringkat, menjadikan isyarat fMRI membentangkan superposisi kompleks tak linear yang sukar untuk diterbalikkan dan dinyahkod.
Kaedah penyahkodan saraf tradisional, seperti regresi rabung, walaupun digunakan untuk mengaitkan isyarat fMRI dengan rangsangan yang sepadan, selalunya gagal menangkap secara berkesan hubungan tak linear antara rangsangan dan tindak balas saraf. Baru-baru ini, teknik pembelajaran mendalam, seperti rangkaian permusuhan generatif (GAN) dan model resapan terpendam (LDM), telah diterima pakai untuk memodelkan hubungan kompleks ini dengan lebih tepat. Walau bagaimanapun, mengasingkan aktiviti otak berkaitan penglihatan daripada bunyi dan menyahkodnya dengan tepat kekal sebagai salah satu cabaran utama dalam bidang ini.
Untuk menangani cabaran ini, kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang boleh mengenal pasti dan menghilangkan bunyi bising dalam aktiviti otak secara berkesan dan menumpukan pada menghuraikan corak pengaktifan saraf yang penting untuk pembinaan semula visual. Kaedah ini menjana imej resolusi tinggi dan tepat dari segi semantik dengan ketepatan Top-1 sebanyak 39.34% untuk 50 kategori, melebihi teknologi terkini yang sedia ada.
Ikhtisar kaedah ialah penerangan ringkas tentang satu siri langkah atau proses. Ia digunakan untuk menerangkan cara mencapai matlamat tertentu atau menyelesaikan tugas tertentu. Tujuan gambaran keseluruhan kaedah adalah untuk memberikan pembaca atau pengguna pemahaman keseluruhan tentang keseluruhan proses supaya mereka dapat memahami dengan lebih baik dan mengikuti langkah-langkah di dalamnya. Dalam gambaran keseluruhan kaedah, anda biasanya menyertakan urutan langkah, bahan atau alatan yang diperlukan dan masalah atau cabaran yang mungkin dihadapi. Dengan menghuraikan gambaran keseluruhan kaedah dengan jelas dan padat, pembaca atau pengguna boleh lebih mudah memahami dan berjaya menyelesaikan tugasan yang diperlukanfMRI Representation Learning (FRL)
Fasa 1: Pra-latihan autocoder dwi kontras DC-MAE)
Untuk membezakan corak aktiviti otak yang dikongsi dan bunyi individu dalam kalangan kumpulan orang yang berbeza, kertas kerja ini memperkenalkan teknologi DC-MAE untuk pra-melatih perwakilan fMRI menggunakan data tidak berlabel. DC-MAE terdiri daripada pengekod dan penyahkod
, di mana
mengambil isyarat fMRI bertopeng sebagai input dan
dilatih untuk meramal isyarat fMRI yang tidak bertopeng. Apa yang dipanggil "kontras berganda" bermakna model mengoptimumkan kehilangan kontras dalam pembelajaran perwakilan fMRI dan mengambil bahagian dalam dua proses kontras yang berbeza.
Dalam peringkat pertama pembelajaran kontrastif, sampel dalam setiap kelompok yang mengandungi n sampel fMRI v bertopeng secara rawak dua kali, menghasilkan dua versi bertopeng yang berbeza
dan
sebagai pasangan sampel positif untuk perbandingan. Selepas itu, lapisan konvolusi 1D menukar kedua-dua versi ini kepada perwakilan terbenam, yang masing-masing dimasukkan ke dalam pengekod fMRI
. Penyahkod
menerima perwakilan terpendam yang dikodkan ini dan menghasilkan ramalan
dan
. Optimumkan model melalui kehilangan kontras pertama yang dikira oleh fungsi kehilangan InfoNCE, iaitu kehilangan kontras silang:
Dalam peringkat kedua pembelajaran kontrastif, setiap imej asal yang dibuka dan imej bertopeng yang sepadan
membentuk sepasang sampel positif semula jadi.
di sini mewakili imej yang diramalkan oleh penyahkod
. Kehilangan kontras kedua, iaitu kehilangan kontras kendiri, dikira mengikut formula berikut:
Mengoptimumkan kehilangan kontras diri boleh mencapai pembinaan semula oklusi. Sama ada
atau
, sampel negatif
datang daripada kumpulan kejadian yang sama.
dan
dioptimumkan secara bersama seperti berikut:
, di mana hiperparameter
dan
digunakan untuk melaraskan berat setiap tempoh kerugian.
Peringkat kedua: Penalaan menggunakan bimbingan silang modal
Memandangkan nisbah isyarat-ke-bunyi yang rendah dan sifat rakaman fMRI yang sangat konvolusi, adalah penting bagi pelajar ciri fMRI untuk memberi tumpuan kepada yang paling relevan dengan pemprosesan visual Dan adalah penting untuk membina semula corak pengaktifan otak yang paling bermaklumat
Selepas peringkat pertama pra-latihan, pengekod auto fMRI dilaraskan dengan bantuan imej untuk mencapai pembinaan semula fMRI, dan peringkat kedua juga mengikuti proses ini. Khususnya, sampel dan tindak balas neural yang direkodkan fMRI yang sepadan
dipilih daripada kumpulan n sampel.
dan
diproses dengan menyekat dan pelekat rawak, masing-masing diubah menjadi
dan
, dan kemudian dimasukkan ke dalam pengekod imej
dan pengekod fMRI
masing-masing untuk menjana
dan
. Untuk membina semula fMRI
, modul perhatian silang digunakan untuk menggabungkan
dan
:
W dan b masing-masing mewakili berat dan pincang lapisan linear yang sepadan. ialah faktor penskalaan dan
ialah dimensi vektor kunci. CA ialah singkatan kepada cross-attention. Selepas
ditambahkan pada
, ia dimasukkan ke dalam penyahkod fMRI untuk membina semula
, dan kita mendapat
:
Pengiraan serupa juga dilakukan dalam pengekod automatik imej, dan output digabungkan dengan pengekod imej modul perhatian silang
Output
digabungkan dan kemudian digunakan untuk menyahkod imej
, memberikan
:
apabila menjana imej
Selepas melengkapkan latihan FRL peringkat pertama dan kedua, gunakan pengekod pelajar ciri fMRI untuk memacu model resapan terpendam (LDM) untuk menjana imej daripada aktiviti otak. Seperti yang ditunjukkan dalam rajah, model resapan termasuk proses resapan ke hadapan dan proses penyahnosian terbalik. Proses ke hadapan secara beransur-ansur merendahkan imej kepada hingar Gaussian biasa dengan memperkenalkan secara beransur-ansur hingar Gaussian dengan variasi yang berbeza-beza.
Kajian ini menjana imej dengan mengekstrak pengetahuan visual daripada model resapan terpendam label-ke-imej (LDM) yang telah terlatih dan menggunakan data fMRI sebagai syarat. Mekanisme silang perhatian digunakan di sini untuk memasukkan maklumat fMRI ke dalam LDM, berikutan cadangan daripada kajian resapan yang stabil. Untuk mengukuhkan peranan maklumat bersyarat, kaedah perhatian silang dan pelaziman langkah masa digunakan di sini. Dalam fasa latihan, pengekod VQGAN dan pengekod fMRI
dilatih oleh peringkat pertama dan kedua FRL digunakan untuk memproses imej u dan fMRI v, dan pengekod fMRI diperhalusi sambil memastikan LDM tidak berubah fungsi ialah:
di mana, ialah skema hingar model resapan. Dalam fasa inferens, proses bermula dengan hingar Gaussian standard pada langkah masa T, dan LDM secara berurutan mengikut proses songsang untuk mengeluarkan secara beransur-ansur hingar perwakilan tersembunyi, dikondisikan pada maklumat fMRI yang diberikan. Apabila langkah masa sifar dicapai, perwakilan tersembunyi ditukar kepada imej menggunakan penyahkod VQGAN
. . model yang dicadangkan dengan ketara mengatasi model ini dalam ketepatan, dengan peningkatan sebanyak 39.34% dan 66.7% berbanding DC-LDM dan IC-GAN masing-masing
Penilaian ke atas empat subjek lain bagi set data GOD, walaupun semasa DC-LDM adalah dibenarkan untuk diselaraskan pada set ujian, model yang dicadangkan dalam kajian ini adalah jauh lebih baik daripada DC-LDM dalam ketepatan klasifikasi Top-1 sebanyak 50 cara, membuktikan bahawa model yang dicadangkan adalah berkesan dalam subjek yang berbeza dan keunggulan dalam membina semula subjek ' aktiviti otak.
Hasil penyelidikan menunjukkan bahawa menggunakan rangka kerja pembelajaran perwakilan fMRI yang dicadangkan dan LDM pra-latihan boleh membina semula aktiviti visual otak dengan lebih baik, jauh melebihi tahap asas semasa. Kerja ini membantu meneroka lebih lanjut potensi model penyahkodan saraf
Atas ialah kandungan terperinci NeurIPS23 |. 'Bacaan Otak' menyahkod aktiviti otak dan membina semula dunia visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/
