Rumah > Peranti teknologi > AI > teks badan

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

WBOY
Lepaskan: 2023-04-13 19:10:01
ke hadapan
1845 orang telah melayarinya

Dalam novel fiksyen sains "The Three-Body Problem", orang Trisolaran yang cuba menduduki bumi diberi suasana yang sangat unik: berkongsi maklumat melalui gelombang otak, dengan pemikiran yang telus dan niat jahat antara satu sama lain . Bagi mereka, berfikir dan bercakap adalah perkataan yang sama. Manusia pula mengambil kesempatan daripada sifat pemikiran yang tidak jelas untuk menghasilkan "Pelan Menghadap Dinding", dan akhirnya berjaya memperdaya Trisolaran dan mencapai kemenangan berperingkat.

Maka persoalannya, adakah pemikiran manusia benar-benar legap? Dengan kemunculan beberapa cara teknikal, jawapan kepada soalan ini nampaknya tidak begitu mutlak. Ramai penyelidik cuba menyahkod misteri pemikiran manusia dan menyahkod beberapa isyarat otak ke dalam teks, imej dan maklumat lain.

Baru-baru ini, dua pasukan penyelidik telah mencapai kemajuan penting dalam arah penyahkodan imej pada masa yang sama, dan kertas berkaitan telah diterima oleh CVPR 2023 .

Pasukan pertama adalah dari Universiti Osaka yang baru-baru ini menggunakan Stable Diffusion untuk membina semula corak aktiviti otak daripada imej aktiviti otak manusia yang diperolehi oleh pengimejan resonans magnetik berfungsi (fMRI). resolusi, imej berketepatan tinggi (lihat "Resapan Stabil membaca isyarat otak anda untuk menghasilkan semula imej, dan penyelidikan telah diterima oleh CVPR").

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Kebetulan pada masa yang hampir sama, pasukan China dari Universiti Nasional Singapura, Universiti China Hong Kong dan Universiti Stanford juga menghasilkan keputusan yang sama. Mereka membangunkan penyahkod visual manusia yang dipanggil "MinD-Vis", yang boleh menyahkod terus daripada data fMRI melalui pemodelan topeng terlatih dan model stimulasi visual manusia. Ia menjana imej ini yang bukan sahaja terperinci secara munasabah, tetapi juga mewakili semantik dan ciri imej dengan tepat (seperti tekstur dan bentuk). Pada masa ini, kod untuk penyelidikan ini adalah sumber terbuka.

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Tajuk kertas: Seeing Beyond the Brain: Model Resapan Bersyarat dengan Pemodelan Bertopeng Jarang untuk Penyahkodan Penglihatan

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

  • Pautan kertas: http://arxiv.org/abs/2211.06956
  • Pautan kod: https://github.com/zjc062/mind-vis
  • Pautan projek: https://mind-vis.github.io/

Seterusnya kami akan memperkenalkan kertas ini secara terperinci.

Gambaran Keseluruhan Penyelidikan

"Apa yang anda lihat ialah apa yang anda fikirkan."

Persepsi manusia dan pengetahuan terdahulu berkait rapat dalam otak Persepsi kita tentang dunia bukan sahaja dipengaruhi oleh rangsangan objektif, tetapi juga oleh pengalaman kita. Memahami aktiviti otak ini dan menyahkod maklumat adalah salah satu matlamat penting neurosains kognitif, di mana menyahkod maklumat visual adalah masalah yang mencabar.

Pengimejan resonans magnetik berfungsi (fMRI) ialah kaedah bukan invasif dan berkesan yang biasa digunakan untuk memulihkan maklumat visual seperti kategori imej. Tujuan MinD-Vis adalah untuk meneroka kemungkinan menggunakan model pembelajaran mendalam untuk menyahkod rangsangan visual terus daripada data fMRI.

Apabila kaedah sebelumnya menyahkod aktiviti saraf kompleks terus daripada data fMRI, terdapat kekurangan gandingan {fMRI - imej} dan panduan biologi yang berkesan, jadi imej yang dibina semula biasanya kabur dan tidak bermakna dari segi semantik . Oleh itu, adalah satu cabaran penting untuk mempelajari perwakilan fMRI secara berkesan, yang membantu mewujudkan hubungan antara aktiviti otak dan rangsangan visual.

Selain itu, kebolehubahan individu merumitkan masalah, dan kita perlu mempelajari perwakilan daripada set data yang besar dan melonggarkan kekangan penjanaan sintesis bersyarat daripada fMRI.

Oleh itu, Penulis percaya bahawa menggunakan pembelajaran penyeliaan kendiri (Pembelajaran kendiri dengan tugas pra-teks) ditambah dengan model generatif berskala besar boleh membolehkan model diperhalusi. pada set data yang agak kecil Dengan pengetahuan kontekstual dan kebolehan generatif yang menakjubkan .

Didorong oleh analisis di atas, MinD-Vis mencadangkan pemodelan isyarat topeng dan model resapan pendam dwi-syarat untuk penyahkodan visual manusia Sumbangan khusus adalah seperti berikut:

  • Cadangan Pemodelan Otak Bertopeng Berkod Jarang (SC-MBM) sebagai pelajar pra-latihan yang dibimbing secara biologi untuk penyahkodan visual ciri otak yang berkesan.
  • Dengan menambahkan model resapan pendam dwisyarat (DC-LDM), ketekalan penyahkodan diperkukuh di bawah semantik yang sama sambil membenarkan varians dijana.
  • Menggabungkan keupayaan perwakilan SC-MBM dan keupayaan penjanaan DC-LDM, imej yang dijana oleh MinD-Vis adalah lebih munasabah sambil mengekalkan maklumat semantik.
  • Diuji secara kuantitatif dan kualitatif pada berbilang set data.

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Perbandingan dengan kaedah sebelumnya – Kualiti generasi

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Perbandingan dengan kaedah sebelumnya – Perbandingan kuantitatif penunjuk penilaian

Pembelajaran kendiri + model generatif berskala besar

Memandangkan pengumpulan pasangan {fMRI - image} sangat mahal dan memakan masa, tugas ini sentiasa mengalami kekurangan anotasi data. Selain itu, setiap set data dan setiap data individu akan mempunyai offset domain tertentu.

Dalam tugasan ini, penyelidik bertujuan untuk mewujudkan hubungan antara aktiviti otak dan rangsangan visual, dan dengan itu menjana maklumat imej yang sepadan.

Untuk melakukan ini, mereka menggunakan pembelajaran diselia sendiri dan model generatif berskala besar. Mereka percaya pendekatan ini membolehkan model diperhalusi pada set data yang agak kecil dan memperoleh pengetahuan kontekstual dan keupayaan generatif yang menakjubkan.

Rangka Kerja MinD-Vis

Berikut akan memperkenalkan rangka kerja MinD-Vis secara terperinci dan memperkenalkan sebab serta idea untuk reka bentuk.

Data fMRI mempunyai ciri dan masalah berikut:

  1. fMRI menggunakan voxel 3D (voxel) untuk mengukur korelasi paras oksigen darah otak ( BOLD) perubahan untuk melihat perubahan dalam aktiviti otak. Amplitud voxel bersebelahan selalunya serupa, menunjukkan kehadiran redundansi spatial dalam data fMRI.
  2. Apabila mengira data fMRI, Wilayah Kepentingan (ROI) biasanya diekstrak dan data ditukar kepada vektor 1D. Dalam tugasan ini, hanya isyarat dari korteks visual otak yang diekstrak Oleh itu, bilangan voxel (kira-kira 4000) adalah lebih kurang daripada bilangan piksel dalam imej (256*256*3). diproses dalam latitud yang sama seperti biasa Terdapat jurang yang besar dalam cara data imej digunakan.
  3. Disebabkan perbezaan individu, perbezaan dalam reka bentuk percubaan dan kerumitan isyarat otak, setiap set data dan setiap data individu akan mempunyai anjakan domain tertentu.
  4. Untuk rangsangan visual tetap, penyelidik berharap imej yang dipulihkan oleh model akan konsisten dari segi semantik namun, disebabkan perbezaan individu, setiap orang mempunyai tindak balas yang berbeza terhadap rangsangan visual ini, dan para penyelidik Semoga model itu akan mempunyai beberapa varians dan fleksibiliti.

Untuk menangani isu ini, MinD-Vis terdiri daripada dua peringkat:

  1. Menggunakan set data fMRI berskala besar Untuk melatih Autoencoder Bertopeng untuk mempelajari perwakilan fMRI.
  2. Sepadukan pengekod fMRI pra-latihan dengan LDM untuk penyaman berganda melalui penyaman perhatian silang dan penyaman langkah masa untuk melakukan sintesis bersyarat. Kemudian, kami bersama-sama memperhalusi kepala perhatian silang dalam LDM dengan menggunakan {fMRI, Imej} berpasangan.

Dua langkah ini akan diperkenalkan secara terperinci di sini.

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Gambaran Keseluruhan MinD-Vis

(A) Pemodelan Otak Bertopeng Berkod Jarang (SC-MBM) (Tinjauan Keseluruhan MinD-Vis kiri)

Disebabkan redundansi maklumat spatial fMRI, walaupun jika kebanyakannya adalah Masked, data fMRI masih boleh dipulihkan. Oleh itu, pada peringkat pertama MinD-Vis, kebanyakan data fMRI bertopeng untuk menjimatkan masa pengiraan. Di sini, pengarang menggunakan pendekatan yang serupa dengan Autoencoder Bertopeng:

  1. Bahagikan voxel fMRI kepada tampalan
  2. Gunakan sama dengan saiz tampalan Tukar lapisan konvolusi bersaiz langkah 1D ke dalam pembenaman
  3. Tambahkan baki tampalan fMRI pada pembenaman kedudukan dan gunakannya sebagai input pengubah penglihatan
  4. Penyahkodan Dapatkan data yang dibina semula
  5. Kira kehilangan antara data yang dibina semula dan data asal
  6. Optimumkan model melalui perambatan belakang untuk menjadikan data yang dibina semula sebagai mungkin yang mungkin Serupa dengan data asal
  7. Ulang langkah 2-6 untuk melatih model akhir

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

SC-MBM boleh memulihkan maklumat fMRI bertopeng dengan berkesan

Reka bentuk dan Topeng ini Apakah perbezaan antara ed Autoencoder?

  • Apabila pemodelan topeng digunakan pada imej semula jadi, model biasanya menggunakan nisbah saiz benam kepada tampalan yang sama dengan atau lebih besar sedikit daripada 1.
  • Dalam tugasan ini, pengarang menggunakan nisbah saiz embedding-to-patch yang agak besar, yang boleh meningkatkan kapasiti maklumat dengan ketara dan mewujudkan ruang perwakilan yang besar untuk Reka Bentuk Ini juga sepadan dengan pengekodan maklumat yang jarang dalam otak*.

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Eksperimen Ablasi SC-MBM

(B) LDM Berhawa Dwi (DC-LDM) (Gambaran Keseluruhan MinD-Vis kanan)

Berskala besar dalam Peringkat A Selepas pembelajaran konteks , pengekod fMRI boleh menukar data fMRI kepada perwakilan yang jarang dengan kekangan lokaliti. Di sini, penulis merumuskan tugas penyahkodan sebagai masalah penjanaan bersyarat dan menggunakan LDM terlatih untuk menyelesaikan masalah ini.

  • LDM beroperasi pada ruang terpendam imej, dengan data fMRI z sebagai maklumat bersyarat, dan matlamatnya adalah untuk belajar membentuk imej melalui proses resapan belakang.
  • Dalam tugas penjanaan imej, kepelbagaian dan konsistensi adalah matlamat yang bertentangan, dan fMRI kepada imej lebih bergantung pada ketekalan generatif.
  • Untuk memastikan ketekalan penjanaan, pengarang menggabungkan pelaziman perhatian silang dan pelaziman langkah masa, dan menggunakan mekanisme bersyarat dengan pembenaman masa di lapisan tengah UNet.
  • Mereka merumuskan semula formula objektif pengoptimuman menjadi formula berselang-seli dwi pelarasan.

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Kami menunjukkan kestabilan kaedah kami dengan menyahkod imej dalam keadaan rawak berbeza beberapa kali.

Penalaan halus

Selepas pengekod fMRI dilatih terlebih dahulu oleh SC-MBM, ia dibandingkan dengan LDM pra-latihan oleh penyaman berganda disepadukan bersama. Di sini, oleh:

  1. Gunakan lapisan konvolusi untuk menggabungkan output pengekod ke dalam dimensi terpendam; dan bahagian lain diperbaiki ;
  2. Kepala perhatian silang penalaan halus adalah kunci untuk menyambungkan ruang penyaman pra-terlatih dan ruang terpendam fMRI; sambungan yang lebih jelas antara fMRI dan ciri imej akan dipelajari melalui perwakilan fMRI berkapasiti besar.
Eksperimen Ablasi DC-LDM

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Butiran tambahanTanpa diduga, MinD-Vis boleh menyahkod beberapa butiran yang sebenarnya tidak wujud dalam imej kebenaran tanah, tetapi sangat berkaitan dengan kandungan imej. Sebagai contoh, apabila gambar adalah pemandangan semula jadi, MinD-Vis menyahkod sungai dan langit biru apabila ia adalah sebuah rumah, MinD-Vis menyahkod hiasan dalaman yang serupa. Ini mempunyai kedua-dua kelebihan dan kekurangan. Perkara yang baik ialah ini menunjukkan bahawa kita boleh menyahkod apa yang kita bayangkan; perkara yang buruk ialah ini boleh menjejaskan penilaian hasil penyahkodan.

Koleksi peralihan kegemaran

AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Penulis percaya apabila bilangan sampel latihan adalah sedikit, kesukaran untuk menyahkod rangsangan akan berbeza. Contohnya, set data GOD mengandungi lebih banyak sampel latihan haiwan daripada pakaian. Ini bermakna perkataan yang secara semantik serupa dengan "berbulu" lebih cenderung untuk dinyahkodkan sebagai haiwan dan bukannya pakaian, seperti yang ditunjukkan dalam imej di atas, di mana stokin dinyahkodkan sebagai biri-biri.

Tetapan percubaanAI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka

Set Data

Di sini, pengarang menggunakan tiga set data awam.

Peringkat pertama pra-latihan: menggunakan Projek Human Connectome, yang menyediakan 136,000 segmen data fMRI, tiada imej, hanya fMRI.

Perhalusi Pengekod dan model generasi peringkat kedua: Set Data Penyahkodan Objek Generik (GOD) dan set data Brain, Object, Landskap (BOLD5000) telah digunakan. Kedua-dua set data ini masing-masing menyediakan 1250 dan 5254 {fMRI, Image} pasangan, yang mana 50 dan 113 telah diambil sebagai set ujian masing-masing.

  • Struktur model
  • Reka bentuk struktur model (ViT dan model resapan) dalam artikel ini terutamanya merujuk kepada literatur lepas. Sila rujuk teks untuk butiran parameter model. Begitu juga, mereka juga menggunakan seni bina asimetri: pengekod bertujuan untuk mempelajari perwakilan fMRI yang bermakna, manakala penyahkod cuba meramalkan tompok yang dikaburkan. Oleh itu, kami mengikuti reka bentuk sebelumnya dan menjadikan penyahkod lebih kecil, yang kami buang selepas pra-latihan.

Indeks Penilaian

Seperti kesusasteraan terdahulu, penulis juga menggunakan ketepatan klasifikasi n-way top-1 dan top-5 untuk Menilai semantik ketepatan keputusan. Ini ialah kaedah yang menilai keputusan dengan mengira ketepatan klasifikasi top-1 dan top-5 untuk n-1 kategori yang dipilih secara rawak dan kategori yang betul sepanjang berbilang percubaan. Tidak seperti pendekatan sebelumnya, di sini mereka menggunakan kaedah penilaian yang lebih langsung dan boleh ditiru, menggunakan pengelas ImageNet1K yang telah terlatih untuk menilai ketepatan semantik imej yang dijana dan bukannya menggunakan ciri buatan tangan. Selain itu, mereka menggunakan jarak permulaan Fréchet (FID) sebagai rujukan untuk menilai kualiti imej yang dihasilkan. Walau bagaimanapun, disebabkan bilangan imej yang terhad dalam set data, FID mungkin tidak menilai pengedaran imej dengan sempurna.

Kesan

Eksperimen dalam artikel ini dijalankan pada peringkat individu, iaitu model telah dilatih dan diuji pada individu yang sama. Sebagai perbandingan dengan literatur sebelumnya, keputusan untuk subjek ketiga set data GOD dilaporkan di sini, dan keputusan untuk subjek lain disenaraikan dalam Lampiran.

Ditulis pada penghujung

Melalui projek ini, penulis menunjukkan kebolehlaksanaan memulihkan maklumat visual otak manusia melalui fMRI. Walau bagaimanapun, terdapat banyak isu yang perlu ditangani dalam bidang ini, seperti cara mengendalikan perbezaan antara individu dengan lebih baik, cara mengurangkan kesan bunyi dan gangguan pada penyahkodan, dan cara menggabungkan penyahkodan fMRI dengan teknik neurosains lain untuk mencapai pemahaman yang lebih komprehensif Mekanisme dan fungsi otak manusia. Pada masa yang sama, kita juga perlu lebih memahami dan menghormati isu etika dan undang-undang yang mengelilingi otak manusia dan privasi individu.

Selain itu, kami juga perlu meneroka senario aplikasi yang lebih luas, seperti perubatan dan interaksi manusia-komputer, untuk mengubah teknologi ini menjadi aplikasi praktikal. Dalam bidang perubatan, teknologi penyahkodan fMRI boleh digunakan pada masa hadapan untuk membantu kumpulan khas seperti orang cacat penglihatan, orang cacat pendengaran dan juga pesakit lumpuh am untuk menyahkod pemikiran mereka. Disebabkan ketidakupayaan fizikal, mereka ini tidak dapat meluahkan fikiran dan kehendak mereka melalui kaedah komunikasi tradisional. Dengan menggunakan teknologi fMRI, saintis boleh menyahkod aktiviti otak mereka untuk mengakses pemikiran dan kehendak mereka, membolehkan mereka berkomunikasi dengan mereka secara lebih semula jadi dan cekap. Dalam bidang interaksi manusia-komputer, teknologi penyahkodan fMRI boleh digunakan untuk membangunkan antara muka dan sistem kawalan komputer manusia yang lebih pintar dan adaptif, seperti menyahkod aktiviti otak pengguna untuk mencapai pengalaman interaksi manusia-komputer yang lebih semula jadi dan cekap.

Kami percaya bahawa dengan sokongan set data berskala besar + model besar + kuasa pengkomputeran, penyahkodan fMRI akan mempunyai kesan yang lebih luas dan meluas, menggalakkan neurosains kognitif dan pembangunan kecerdasan buatan daripada padang.

Nota: *Asas biologi untuk mempelajari perwakilan rangsangan visual dalam otak menggunakan pengekodan jarang: Pengekodan jarang telah dicadangkan sebagai strategi untuk perwakilan maklumat deria. Penyelidikan menunjukkan bahawa rangsangan visual jarang dikodkan dalam korteks visual, yang meningkatkan kecekapan penghantaran maklumat dan mengurangkan redundansi dalam otak. Menggunakan fMRI, kandungan visual pemandangan semula jadi boleh dibina semula daripada sejumlah kecil data yang dikumpul dalam korteks visual. Pengekodan jarang boleh menjadi cara pengekodan yang cekap dalam penglihatan komputer. Artikel tersebut menyebut kaedah SC-MBM, yang membahagikan data fMRI kepada blok kecil untuk memperkenalkan kekangan lokaliti, dan kemudian mengekod setiap blok kecil ke dalam ruang vektor berdimensi tinggi, yang boleh digunakan sebagai pelajar ciri otak yang berkesan dan cekap secara biologi. , digunakan untuk pengekodan dan penyahkodan visual.

Atas ialah kandungan terperinci AI tahu apa yang anda fikirkan dan melukisnya untuk anda Kod projek telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
ai
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan