Dalam kertas kerja NeurIPS23 ini, penyelidik dari Universiti Leuven, Universiti Nasional Singapura dan Institut Automasi Akademi Sains China mencadangkan "teknologi membaca otak" visual yang boleh menganalisis aktiviti otak manusia pada resolusi tinggi imej yang anda lihat dengan mata anda sendiri.
Dalam bidang neurosains kognitif, orang ramai menyedari bahawa persepsi manusia bukan sahaja dipengaruhi oleh rangsangan objektif, tetapi juga sangat dipengaruhi oleh pengalaman lalu. Faktor-faktor ini bekerjasama untuk mewujudkan aktiviti yang kompleks di dalam otak. Oleh itu, menyahkod maklumat visual daripada aktiviti otak menjadi tugas penting. Antaranya, pengimejan resonans magnetik berfungsi (fMRI), sebagai teknologi bukan invasif yang cekap, memainkan peranan penting dalam memulihkan dan menganalisis maklumat visual, terutamanya kategori imej Walau bagaimanapun, disebabkan oleh ciri-ciri bunyi isyarat fMRI dan penglihatan otak kerumitan perwakilan, tugas ini menghadapi cabaran yang besar. Untuk menangani masalah ini, kertas kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang bertujuan untuk mengenal pasti dan mengeluarkan bunyi dalam aktiviti otak, dan memfokuskan pada menghurai corak pengaktifan saraf yang penting untuk pembinaan semula visual, berjaya membina semula imej peringkat tinggi dari otak. aktiviti. resolusi dan imej tepat dari segi semantik.
Pautan kertas: https://arxiv.org/abs/2305.17214
Pautan projek: https://github.com/soinx0629/vis_dec_neurips/
Kaedah pembelajaran yang dicadangkan dalam kertas kontrastif , model silang Model silang maklumat negeri dan penyebaran telah mencapai hampir 40% peningkatan dalam penunjuk penilaian pada set data fMRI yang berkaitan berbanding model terbaik sebelum ini Kualiti, kebolehbacaan dan perkaitan semantik imej yang dihasilkan semuanya lebih baik daripada kaedah sedia ada. Peningkatan yang ketara. Kerja ini membantu memahami mekanisme persepsi visual otak manusia dan bermanfaat untuk mempromosikan penyelidikan mengenai teknologi antara muka otak-komputer visual. Kod yang berkaitan adalah sumber terbuka.
Walaupun pengimejan resonans magnetik berfungsi (fMRI) digunakan secara meluas untuk menganalisis tindak balas saraf, membina semula imej visual daripada datanya dengan tepat masih mencabar, terutamanya kerana data fMRI mengandungi hingar daripada pelbagai sumber, yang mungkin menutupi corak pengaktifan saraf. Di samping itu, proses tindak balas saraf yang dicetuskan oleh rangsangan visual adalah kompleks dan berbilang peringkat, menjadikan isyarat fMRI membentangkan superposisi kompleks tak linear yang sukar untuk diterbalikkan dan dinyahkod.
Kaedah penyahkodan saraf tradisional, seperti regresi rabung, walaupun digunakan untuk mengaitkan isyarat fMRI dengan rangsangan yang sepadan, selalunya gagal menangkap secara berkesan hubungan tak linear antara rangsangan dan tindak balas saraf. Baru-baru ini, teknik pembelajaran mendalam, seperti rangkaian permusuhan generatif (GAN) dan model resapan terpendam (LDM), telah diterima pakai untuk memodelkan hubungan kompleks ini dengan lebih tepat. Walau bagaimanapun, mengasingkan aktiviti otak berkaitan penglihatan daripada bunyi dan menyahkodnya dengan tepat kekal sebagai salah satu cabaran utama dalam bidang ini.
Untuk menangani cabaran ini, kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang boleh mengenal pasti dan menghilangkan bunyi bising dalam aktiviti otak secara berkesan dan menumpukan pada menghuraikan corak pengaktifan saraf yang penting untuk pembinaan semula visual. Kaedah ini menjana imej resolusi tinggi dan tepat dari segi semantik dengan ketepatan Top-1 sebanyak 39.34% untuk 50 kategori, melebihi teknologi terkini yang sedia ada.
Ikhtisar kaedah ialah penerangan ringkas tentang satu siri langkah atau proses. Ia digunakan untuk menerangkan cara mencapai matlamat tertentu atau menyelesaikan tugas tertentu. Tujuan gambaran keseluruhan kaedah adalah untuk memberikan pembaca atau pengguna pemahaman keseluruhan tentang keseluruhan proses supaya mereka dapat memahami dengan lebih baik dan mengikuti langkah-langkah di dalamnya. Dalam gambaran keseluruhan kaedah, anda biasanya menyertakan urutan langkah, bahan atau alatan yang diperlukan dan masalah atau cabaran yang mungkin dihadapi. Dengan menghuraikan gambaran keseluruhan kaedah dengan jelas dan padat, pembaca atau pengguna boleh lebih mudah memahami dan berjaya menyelesaikan tugasan yang diperlukanfMRI Representation Learning (FRL)
Fasa 1: Pra-latihan autocoder dwi kontras DC-MAE)
Untuk membezakan corak aktiviti otak yang dikongsi dan bunyi individu dalam kalangan kumpulan orang yang berbeza, kertas kerja ini memperkenalkan teknologi DC-MAE untuk pra-melatih perwakilan fMRI menggunakan data tidak berlabel. DC-MAE terdiri daripada pengekod dan penyahkod , di mana mengambil isyarat fMRI bertopeng sebagai input dan dilatih untuk meramal isyarat fMRI yang tidak bertopeng. Apa yang dipanggil "kontras berganda" bermakna model mengoptimumkan kehilangan kontras dalam pembelajaran perwakilan fMRI dan mengambil bahagian dalam dua proses kontras yang berbeza.
Dalam peringkat pertama pembelajaran kontrastif, sampel dalam setiap kelompok yang mengandungi n sampel fMRI v bertopeng secara rawak dua kali, menghasilkan dua versi bertopeng yang berbeza dan sebagai pasangan sampel positif untuk perbandingan. Selepas itu, lapisan konvolusi 1D menukar kedua-dua versi ini kepada perwakilan terbenam, yang masing-masing dimasukkan ke dalam pengekod fMRI . Penyahkod menerima perwakilan terpendam yang dikodkan ini dan menghasilkan ramalan dan . Optimumkan model melalui kehilangan kontras pertama yang dikira oleh fungsi kehilangan InfoNCE, iaitu kehilangan kontras silang:
Dalam peringkat kedua pembelajaran kontrastif, setiap imej asal yang dibuka dan imej bertopeng yang sepadan membentuk sepasang sampel positif semula jadi. di sini mewakili imej yang diramalkan oleh penyahkod . Kehilangan kontras kedua, iaitu kehilangan kontras kendiri, dikira mengikut formula berikut:
Mengoptimumkan kehilangan kontras diri boleh mencapai pembinaan semula oklusi. Sama ada atau , sampel negatif datang daripada kumpulan kejadian yang sama. dan dioptimumkan secara bersama seperti berikut: , di mana hiperparameter dan digunakan untuk melaraskan berat setiap tempoh kerugian.
Peringkat kedua: Penalaan menggunakan bimbingan silang modal
Memandangkan nisbah isyarat-ke-bunyi yang rendah dan sifat rakaman fMRI yang sangat konvolusi, adalah penting bagi pelajar ciri fMRI untuk memberi tumpuan kepada yang paling relevan dengan pemprosesan visual Dan adalah penting untuk membina semula corak pengaktifan otak yang paling bermaklumat
Selepas peringkat pertama pra-latihan, pengekod auto fMRI dilaraskan dengan bantuan imej untuk mencapai pembinaan semula fMRI, dan peringkat kedua juga mengikuti proses ini. Khususnya, sampel dan tindak balas neural yang direkodkan fMRI yang sepadan dipilih daripada kumpulan n sampel. dan diproses dengan menyekat dan pelekat rawak, masing-masing diubah menjadi dan , dan kemudian dimasukkan ke dalam pengekod imej dan pengekod fMRI masing-masing untuk menjana dan . Untuk membina semula fMRI, modul perhatian silang digunakan untuk menggabungkan dan :
W dan b masing-masing mewakili berat dan pincang lapisan linear yang sepadan. ialah faktor penskalaan dan ialah dimensi vektor kunci. CA ialah singkatan kepada cross-attention. Selepas ditambahkan pada , ia dimasukkan ke dalam penyahkod fMRI untuk membina semula , dan kita mendapat :
Pengiraan serupa juga dilakukan dalam pengekod automatik imej, dan output digabungkan dengan pengekod imej modul perhatian silang Output digabungkan dan kemudian digunakan untuk menyahkod imej , memberikan :
fMRI dan pengekod auto imej dilatih bersama dengan mengoptimumkan fungsi kehilangan berikut:apabila menjana imej
model penyebaran terpendam boleh digunakan ( LDM)
Selepas melengkapkan latihan FRL peringkat pertama dan kedua, gunakan pengekod pelajar ciri fMRI untuk memacu model resapan terpendam (LDM) untuk menjana imej daripada aktiviti otak. Seperti yang ditunjukkan dalam rajah, model resapan termasuk proses resapan ke hadapan dan proses penyahnosian terbalik. Proses ke hadapan secara beransur-ansur merendahkan imej kepada hingar Gaussian biasa dengan memperkenalkan secara beransur-ansur hingar Gaussian dengan variasi yang berbeza-beza.
Kajian ini menjana imej dengan mengekstrak pengetahuan visual daripada model resapan terpendam label-ke-imej (LDM) yang telah terlatih dan menggunakan data fMRI sebagai syarat. Mekanisme silang perhatian digunakan di sini untuk memasukkan maklumat fMRI ke dalam LDM, berikutan cadangan daripada kajian resapan yang stabil. Untuk mengukuhkan peranan maklumat bersyarat, kaedah perhatian silang dan pelaziman langkah masa digunakan di sini. Dalam fasa latihan, pengekod VQGAN dan pengekod fMRI dilatih oleh peringkat pertama dan kedua FRL digunakan untuk memproses imej u dan fMRI v, dan pengekod fMRI diperhalusi sambil memastikan LDM tidak berubah fungsi ialah:
di mana, ialah skema hingar model resapan. Dalam fasa inferens, proses bermula dengan hingar Gaussian standard pada langkah masa T, dan LDM secara berurutan mengikut proses songsang untuk mengeluarkan secara beransur-ansur hingar perwakilan tersembunyi, dikondisikan pada maklumat fMRI yang diberikan. Apabila langkah masa sifar dicapai, perwakilan tersembunyi ditukar kepada imej menggunakan penyahkod VQGAN . . model yang dicadangkan dengan ketara mengatasi model ini dalam ketepatan, dengan peningkatan sebanyak 39.34% dan 66.7% berbanding DC-LDM dan IC-GAN masing-masing
Penilaian ke atas empat subjek lain bagi set data GOD, walaupun semasa DC-LDM adalah dibenarkan untuk diselaraskan pada set ujian, model yang dicadangkan dalam kajian ini adalah jauh lebih baik daripada DC-LDM dalam ketepatan klasifikasi Top-1 sebanyak 50 cara, membuktikan bahawa model yang dicadangkan adalah berkesan dalam subjek yang berbeza dan keunggulan dalam membina semula subjek ' aktiviti otak.
Hasil penyelidikan menunjukkan bahawa menggunakan rangka kerja pembelajaran perwakilan fMRI yang dicadangkan dan LDM pra-latihan boleh membina semula aktiviti visual otak dengan lebih baik, jauh melebihi tahap asas semasa. Kerja ini membantu meneroka lebih lanjut potensi model penyahkodan saraf
Atas ialah kandungan terperinci NeurIPS23 |. 'Bacaan Otak' menyahkod aktiviti otak dan membina semula dunia visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!