Dalam novel fiksyen sains "The Three-Body Problem", orang Trisolaran yang cuba menduduki bumi diberi suasana yang sangat unik: berkongsi maklumat melalui gelombang otak, dengan pemikiran yang telus dan niat jahat antara satu sama lain . Bagi mereka, berfikir dan bercakap adalah perkataan yang sama. Manusia pula mengambil kesempatan daripada sifat pemikiran yang tidak jelas untuk menghasilkan "Pelan Menghadap Dinding", dan akhirnya berjaya memperdaya Trisolaran dan mencapai kemenangan berperingkat.
Maka persoalannya, adakah pemikiran manusia benar-benar legap? Dengan kemunculan beberapa cara teknikal, jawapan kepada soalan ini nampaknya tidak begitu mutlak. Ramai penyelidik cuba menyahkod misteri pemikiran manusia dan menyahkod beberapa isyarat otak ke dalam teks, imej dan maklumat lain.
Baru-baru ini, dua pasukan penyelidik telah mencapai kemajuan penting dalam arah penyahkodan imej pada masa yang sama, dan kertas berkaitan telah diterima oleh CVPR 2023 .
Pasukan pertama adalah dari Universiti Osaka yang baru-baru ini menggunakan Stable Diffusion untuk membina semula corak aktiviti otak daripada imej aktiviti otak manusia yang diperolehi oleh pengimejan resonans magnetik berfungsi (fMRI). resolusi, imej berketepatan tinggi (lihat "Resapan Stabil membaca isyarat otak anda untuk menghasilkan semula imej, dan penyelidikan telah diterima oleh CVPR").
Kebetulan pada masa yang hampir sama, pasukan China dari Universiti Nasional Singapura, Universiti China Hong Kong dan Universiti Stanford juga menghasilkan keputusan yang sama. Mereka membangunkan penyahkod visual manusia yang dipanggil "MinD-Vis", yang boleh menyahkod terus daripada data fMRI melalui pemodelan topeng terlatih dan model stimulasi visual manusia. Ia menjana imej ini yang bukan sahaja terperinci secara munasabah, tetapi juga mewakili semantik dan ciri imej dengan tepat (seperti tekstur dan bentuk). Pada masa ini, kod untuk penyelidikan ini adalah sumber terbuka.
Tajuk kertas: Seeing Beyond the Brain: Model Resapan Bersyarat dengan Pemodelan Bertopeng Jarang untuk Penyahkodan Penglihatan
Seterusnya kami akan memperkenalkan kertas ini secara terperinci.
"Apa yang anda lihat ialah apa yang anda fikirkan."
Persepsi manusia dan pengetahuan terdahulu berkait rapat dalam otak Persepsi kita tentang dunia bukan sahaja dipengaruhi oleh rangsangan objektif, tetapi juga oleh pengalaman kita. Memahami aktiviti otak ini dan menyahkod maklumat adalah salah satu matlamat penting neurosains kognitif, di mana menyahkod maklumat visual adalah masalah yang mencabar.
Pengimejan resonans magnetik berfungsi (fMRI) ialah kaedah bukan invasif dan berkesan yang biasa digunakan untuk memulihkan maklumat visual seperti kategori imej. Tujuan MinD-Vis adalah untuk meneroka kemungkinan menggunakan model pembelajaran mendalam untuk menyahkod rangsangan visual terus daripada data fMRI.
Apabila kaedah sebelumnya menyahkod aktiviti saraf kompleks terus daripada data fMRI, terdapat kekurangan gandingan {fMRI - imej} dan panduan biologi yang berkesan, jadi imej yang dibina semula biasanya kabur dan tidak bermakna dari segi semantik . Oleh itu, adalah satu cabaran penting untuk mempelajari perwakilan fMRI secara berkesan, yang membantu mewujudkan hubungan antara aktiviti otak dan rangsangan visual.
Selain itu, kebolehubahan individu merumitkan masalah, dan kita perlu mempelajari perwakilan daripada set data yang besar dan melonggarkan kekangan penjanaan sintesis bersyarat daripada fMRI.
Oleh itu, Penulis percaya bahawa menggunakan pembelajaran penyeliaan kendiri (Pembelajaran kendiri dengan tugas pra-teks) ditambah dengan model generatif berskala besar boleh membolehkan model diperhalusi. pada set data yang agak kecil Dengan pengetahuan kontekstual dan kebolehan generatif yang menakjubkan .
Didorong oleh analisis di atas, MinD-Vis mencadangkan pemodelan isyarat topeng dan model resapan pendam dwi-syarat untuk penyahkodan visual manusia Sumbangan khusus adalah seperti berikut:
Perbandingan dengan kaedah sebelumnya – Kualiti generasi
Perbandingan dengan kaedah sebelumnya – Perbandingan kuantitatif penunjuk penilaian
Memandangkan pengumpulan pasangan {fMRI - image} sangat mahal dan memakan masa, tugas ini sentiasa mengalami kekurangan anotasi data. Selain itu, setiap set data dan setiap data individu akan mempunyai offset domain tertentu.
Dalam tugasan ini, penyelidik bertujuan untuk mewujudkan hubungan antara aktiviti otak dan rangsangan visual, dan dengan itu menjana maklumat imej yang sepadan.
Untuk melakukan ini, mereka menggunakan pembelajaran diselia sendiri dan model generatif berskala besar. Mereka percaya pendekatan ini membolehkan model diperhalusi pada set data yang agak kecil dan memperoleh pengetahuan kontekstual dan keupayaan generatif yang menakjubkan.
Berikut akan memperkenalkan rangka kerja MinD-Vis secara terperinci dan memperkenalkan sebab serta idea untuk reka bentuk.
Data fMRI mempunyai ciri dan masalah berikut:
Untuk menangani isu ini, MinD-Vis terdiri daripada dua peringkat:
Dua langkah ini akan diperkenalkan secara terperinci di sini.
Gambaran Keseluruhan MinD-Vis
(A) Pemodelan Otak Bertopeng Berkod Jarang (SC-MBM) (Tinjauan Keseluruhan MinD-Vis kiri)
Disebabkan redundansi maklumat spatial fMRI, walaupun jika kebanyakannya adalah Masked, data fMRI masih boleh dipulihkan. Oleh itu, pada peringkat pertama MinD-Vis, kebanyakan data fMRI bertopeng untuk menjimatkan masa pengiraan. Di sini, pengarang menggunakan pendekatan yang serupa dengan Autoencoder Bertopeng:
SC-MBM boleh memulihkan maklumat fMRI bertopeng dengan berkesan
Reka bentuk dan Topeng ini Apakah perbezaan antara ed Autoencoder?
Eksperimen Ablasi SC-MBM
(B) LDM Berhawa Dwi (DC-LDM) (Gambaran Keseluruhan MinD-Vis kanan)
Berskala besar dalam Peringkat A Selepas pembelajaran konteks , pengekod fMRI boleh menukar data fMRI kepada perwakilan yang jarang dengan kekangan lokaliti. Di sini, penulis merumuskan tugas penyahkodan sebagai masalah penjanaan bersyarat dan menggunakan LDM terlatih untuk menyelesaikan masalah ini.
Kami menunjukkan kestabilan kaedah kami dengan menyahkod imej dalam keadaan rawak berbeza beberapa kali.
Penalaan halus
Selepas pengekod fMRI dilatih terlebih dahulu oleh SC-MBM, ia dibandingkan dengan LDM pra-latihan oleh penyaman berganda disepadukan bersama. Di sini, oleh:
Butiran tambahanTanpa diduga, MinD-Vis boleh menyahkod beberapa butiran yang sebenarnya tidak wujud dalam imej kebenaran tanah, tetapi sangat berkaitan dengan kandungan imej. Sebagai contoh, apabila gambar adalah pemandangan semula jadi, MinD-Vis menyahkod sungai dan langit biru apabila ia adalah sebuah rumah, MinD-Vis menyahkod hiasan dalaman yang serupa. Ini mempunyai kedua-dua kelebihan dan kekurangan. Perkara yang baik ialah ini menunjukkan bahawa kita boleh menyahkod apa yang kita bayangkan; perkara yang buruk ialah ini boleh menjejaskan penilaian hasil penyahkodan.
Koleksi peralihan kegemaran
Penulis percaya apabila bilangan sampel latihan adalah sedikit, kesukaran untuk menyahkod rangsangan akan berbeza. Contohnya, set data GOD mengandungi lebih banyak sampel latihan haiwan daripada pakaian. Ini bermakna perkataan yang secara semantik serupa dengan "berbulu" lebih cenderung untuk dinyahkodkan sebagai haiwan dan bukannya pakaian, seperti yang ditunjukkan dalam imej di atas, di mana stokin dinyahkodkan sebagai biri-biri.
Tetapan percubaan
Set Data
Di sini, pengarang menggunakan tiga set data awam.Peringkat pertama pra-latihan: menggunakan Projek Human Connectome, yang menyediakan 136,000 segmen data fMRI, tiada imej, hanya fMRI.
Perhalusi Pengekod dan model generasi peringkat kedua: Set Data Penyahkodan Objek Generik (GOD) dan set data Brain, Object, Landskap (BOLD5000) telah digunakan. Kedua-dua set data ini masing-masing menyediakan 1250 dan 5254 {fMRI, Image} pasangan, yang mana 50 dan 113 telah diambil sebagai set ujian masing-masing.
Indeks Penilaian
Seperti kesusasteraan terdahulu, penulis juga menggunakan ketepatan klasifikasi n-way top-1 dan top-5 untuk Menilai semantik ketepatan keputusan. Ini ialah kaedah yang menilai keputusan dengan mengira ketepatan klasifikasi top-1 dan top-5 untuk n-1 kategori yang dipilih secara rawak dan kategori yang betul sepanjang berbilang percubaan. Tidak seperti pendekatan sebelumnya, di sini mereka menggunakan kaedah penilaian yang lebih langsung dan boleh ditiru, menggunakan pengelas ImageNet1K yang telah terlatih untuk menilai ketepatan semantik imej yang dijana dan bukannya menggunakan ciri buatan tangan. Selain itu, mereka menggunakan jarak permulaan Fréchet (FID) sebagai rujukan untuk menilai kualiti imej yang dihasilkan. Walau bagaimanapun, disebabkan bilangan imej yang terhad dalam set data, FID mungkin tidak menilai pengedaran imej dengan sempurna.
Kesan
Eksperimen dalam artikel ini dijalankan pada peringkat individu, iaitu model telah dilatih dan diuji pada individu yang sama. Sebagai perbandingan dengan literatur sebelumnya, keputusan untuk subjek ketiga set data GOD dilaporkan di sini, dan keputusan untuk subjek lain disenaraikan dalam Lampiran. Melalui projek ini, penulis menunjukkan kebolehlaksanaan memulihkan maklumat visual otak manusia melalui fMRI. Walau bagaimanapun, terdapat banyak isu yang perlu ditangani dalam bidang ini, seperti cara mengendalikan perbezaan antara individu dengan lebih baik, cara mengurangkan kesan bunyi dan gangguan pada penyahkodan, dan cara menggabungkan penyahkodan fMRI dengan teknik neurosains lain untuk mencapai pemahaman yang lebih komprehensif Mekanisme dan fungsi otak manusia. Pada masa yang sama, kita juga perlu lebih memahami dan menghormati isu etika dan undang-undang yang mengelilingi otak manusia dan privasi individu. Selain itu, kami juga perlu meneroka senario aplikasi yang lebih luas, seperti perubatan dan interaksi manusia-komputer, untuk mengubah teknologi ini menjadi aplikasi praktikal. Dalam bidang perubatan, teknologi penyahkodan fMRI boleh digunakan pada masa hadapan untuk membantu kumpulan khas seperti orang cacat penglihatan, orang cacat pendengaran dan juga pesakit lumpuh am untuk menyahkod pemikiran mereka. Disebabkan ketidakupayaan fizikal, mereka ini tidak dapat meluahkan fikiran dan kehendak mereka melalui kaedah komunikasi tradisional. Dengan menggunakan teknologi fMRI, saintis boleh menyahkod aktiviti otak mereka untuk mengakses pemikiran dan kehendak mereka, membolehkan mereka berkomunikasi dengan mereka secara lebih semula jadi dan cekap. Dalam bidang interaksi manusia-komputer, teknologi penyahkodan fMRI boleh digunakan untuk membangunkan antara muka dan sistem kawalan komputer manusia yang lebih pintar dan adaptif, seperti menyahkod aktiviti otak pengguna untuk mencapai pengalaman interaksi manusia-komputer yang lebih semula jadi dan cekap. Kami percaya bahawa dengan sokongan set data berskala besar + model besar + kuasa pengkomputeran, penyahkodan fMRI akan mempunyai kesan yang lebih luas dan meluas, menggalakkan neurosains kognitif dan pembangunan kecerdasan buatan daripada padang. Nota: *Asas biologi untuk mempelajari perwakilan rangsangan visual dalam otak menggunakan pengekodan jarang: Pengekodan jarang telah dicadangkan sebagai strategi untuk perwakilan maklumat deria. Penyelidikan menunjukkan bahawa rangsangan visual jarang dikodkan dalam korteks visual, yang meningkatkan kecekapan penghantaran maklumat dan mengurangkan redundansi dalam otak. Menggunakan fMRI, kandungan visual pemandangan semula jadi boleh dibina semula daripada sejumlah kecil data yang dikumpul dalam korteks visual. Pengekodan jarang boleh menjadi cara pengekodan yang cekap dalam penglihatan komputer. Artikel tersebut menyebut kaedah SC-MBM, yang membahagikan data fMRI kepada blok kecil untuk memperkenalkan kekangan lokaliti, dan kemudian mengekod setiap blok kecil ke dalam ruang vektor berdimensi tinggi, yang boleh digunakan sebagai pelajar ciri otak yang berkesan dan cekap secara biologi. , digunakan untuk pengekodan dan penyahkodan visual. Ditulis pada penghujung
Atas ialah kandungan terperinci AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!