Kemajuan terkini dalam antara muka otak-komputer telah diterbitkan dalam sub-jurnal Nature, dan LeCun, salah satu daripada tiga gergasi pembelajaran mendalam, tampil untuk memajukannya.
Kali ini, isyarat saraf digunakan untuk sintesis pertuturan untuk membantu orang yang mengalami afasia akibat kecacatan saraf mendapatkan semula keupayaan untuk berkomunikasi.
Dilaporkan bahawa pasukan penyelidik dari Universiti New York telah membangunkan jenis pensintesis pertuturan boleh dibezakan baharu yang boleh menggunakan rangkaian saraf konvolusi ringan untuk mengekod pertuturan ke dalam satu siri parameter pertuturan yang boleh ditafsir (seperti pic, kenyaringan, frekuensi forman, dsb.) dan mensintesis semula pertuturan melalui pensintesis pertuturan yang boleh dibezakan.
Dengan memetakan isyarat saraf kepada parameter pertuturan ini, para penyelidik membina sistem penyahkodan pertuturan saraf yang sangat boleh ditafsirkan dan boleh digunakan untuk situasi volum data yang kecil serta boleh menjana pertuturan yang berbunyi semula jadi.
Seramai 48 penyelidik mengumpul data daripada subjek dan menjalankan eksperimen untuk menyediakan pengesahan penyahkodan pertuturan untuk menilai antara muka otak-komputer ketepatan tinggi masa hadapan.
Hasilnya menunjukkan bahawa rangka kerja boleh mengendalikan ketumpatan pensampelan spatial yang tinggi dan rendah, dan boleh memproses isyarat EEG dari hemisfera kiri dan kanan, menunjukkan keupayaan penyahkodan pertuturan yang kuat.
Sebelum ini, syarikat Neuralink Musk telah berjaya menanam elektrod dalam otak subjek, yang boleh menyelesaikan operasi kursor mudah untuk mencapai fungsi seperti menaip.
Walau bagaimanapun, penyahkodan pertuturan saraf secara amnya dianggap lebih kompleks.
Kebanyakan percubaan untuk membangunkan penyahkod neuro-pertuturan dan model antara muka otak-komputer berketepatan tinggi yang lain bergantung pada jenis data khas: data subjek yang direkodkan elektrokortikografi (ECoG), biasanya daripada pesakit epilepsi yang menjalani rawatan dalam pengumpulan.
Gunakan elektrod yang ditanam pada pesakit epilepsi untuk mengumpul data korteks serebrum semasa pertuturan Data ini mempunyai resolusi spatial dan temporal yang tinggi dan telah membantu penyelidik memperoleh satu siri keputusan yang luar biasa dalam bidang penyahkodan pertuturan.
Walau bagaimanapun, penyahkodan pertuturan bagi isyarat saraf masih menghadapi dua cabaran utama.
Percubaan awal untuk menyahkod isyarat saraf kepada pertuturan terutamanya bergantung pada model linear Model biasanya tidak memerlukan set data latihan yang besar dan sangat boleh ditafsir, tetapi ketepatannya sangat rendah.
Baru-baru ini berdasarkan rangkaian neural dalam, terutamanya penggunaan seni bina rangkaian neural konvolusi dan berulang, banyak percubaan telah dibuat dalam dua dimensi utama untuk mensimulasikan perwakilan laten perantaraan pertuturan dan kualiti pertuturan yang disintesis. Sebagai contoh, terdapat kajian yang menyahkod aktiviti korteks serebrum ke dalam ruang pergerakan mulut dan kemudian menukarnya kepada pertuturan Walaupun prestasi penyahkodan adalah berkuasa, suara yang dibina semula kedengaran tidak semula jadi.
Sebaliknya, beberapa kaedah berjaya membina semula pertuturan yang berbunyi semula jadi dengan menggunakan vocoder wavenet, rangkaian musuh generatif (GAN) , dsb., tetapi ketepatannya adalah terhad.
Satu kajian terbaru yang diterbitkan dalam Nature mencapai ketepatan dan ketepatan dengan menggunakan ciri HuBERT terkuantisasi sebagai ruang perwakilan perantaraan dan pensintesis pertuturan yang telah terlatih untuk menukar ciri ini kepada pertuturan dalam pesakit dengan bentuk gelombang pertuturan semula jadi.
Walau bagaimanapun, ciri HuBERT tidak boleh mewakili maklumat akustik khusus pembesar suara dan hanya boleh menjana bunyi pembesar suara tetap dan bersatu, jadi model tambahan diperlukan untuk menukar bunyi universal ini kepada suara pesakit tertentu. Tambahan pula, kajian ini dan kebanyakan percubaan terdahulu menggunakan seni bina bukan sebab, yang mungkin mengehadkan penggunaannya dalam aplikasi antara muka otak-komputer praktikal yang memerlukan operasi kausa temporal. Membina Pensintesis Pertuturan Boleh DibezakanPasukan penyelidik NYU Video Lab dan Flinker Lab memperkenalkan rangka kerja penyahkodan baharu daripada electroencephalogram
(ECoG)Bahagian lain ialah pensintesis pertuturan, yang menukar parameter pertuturan ini kepada spektrogram.
Para penyelidik membina pensintesis pertuturan yang boleh dibezakan, yang membolehkan pensintesis pertuturan turut mengambil bahagian dalam latihan semasa latihan penyahkod ECoG dan bersama-sama mengoptimumkan untuk mengurangkan ralat pembinaan semula spektrogram.
Ruang terpendam berdimensi rendah ini sangat boleh ditafsir, ditambah dengan pengekod pertuturan pra-latihan ringan untuk menjana parameter pertuturan rujukan, membantu penyelidik membina rangka kerja penyahkodan pertuturan saraf yang cekap dan mengatasi masalah saraf yang sangat terhad bidang penyahkodan pertuturan.
Rangka kerja ini boleh menjana pertuturan semula jadi yang sangat dekat dengan suara pembesar suara itu sendiri, dan bahagian penyahkod ECoG boleh dipalamkan ke dalam seni bina model pembelajaran mendalam yang berbeza dan juga menyokong operasi sebab akibat.
Penyelidik mengumpul dan memproses data ECoG daripada 48 pesakit neurosurgeri, menggunakan berbilang seni bina pembelajaran mendalam (termasuk konvolusi, rangkaian saraf berulang dan Transformer) sebagai penyahkod ECoG.
Rangka kerja telah menunjukkan ketepatan yang tinggi pada pelbagai model, dengan prestasi terbaik dicapai dengan seni bina konvolusi (ResNet). Rangka kerja yang dicadangkan oleh penyelidik dalam artikel ini boleh mencapai ketepatan yang tinggi hanya melalui operasi sebab dan kadar persampelan yang agak rendah (ketumpatan rendah, jarak 10mm). Mereka juga menunjukkan keupayaan untuk melakukan penyahkodan pertuturan yang berkesan dari kedua-dua hemisfera kiri dan kanan otak, memanjangkan aplikasi penyahkodan pertuturan saraf ke hemisfera kanan. .
Prinsip pensintesis pertuturan yang boleh dibezakan menggunakan prinsip sistem penjanaan manusia dan membahagikan pertuturan kepada dua bahagian: Suara
(digunakan untuk memodelkan vokal)Untuk bahagian Unvoice, penyelidik menapis bunyi putih dengan penapis yang sepadan untuk mendapatkan spektrum yang sepadan Parameter yang boleh dipelajari boleh mengawal nisbah pencampuran kedua-dua bahagian pada setiap saat untuk mendapatkan spektrum pertuturan akhir. Pengekod pertuturan dan penyahkod ECoG pengekodan prestasi antara (LSTM) dan Transformer
(3D Swin). Perlu diingat bahawa model ini semuanya boleh melakukan operasi bukan sebab (bukan sebab musabab) atau sebab dalam masa.
Kausaliti model penyahkodan mempunyai implikasi yang besar untuk antara muka otak-komputer
(BCI)aplikasi: model kausal hanya menggunakan isyarat neural masa lalu dan semasa untuk menjana pertuturan, manakala model kausal juga menggunakan isyarat saraf masa hadapan, yang dalam masa nyata Tidak boleh dilaksanakan dalam permohonan.
Hasilnya menunjukkan bahawa kedua-dua model bukan sebab dan sebab boleh memperoleh hasil penyahkodan yang munasabah, yang memberikan panduan positif untuk penyelidikan dan aplikasi masa hadapan. 2. Penyelidikan tentang penyahkodan pertuturan dan kadar pensampelan ruang bagi isyarat saraf otak kiri dan kananPara penyelidik membandingkan hasil penyahkodan pertuturan hemisfera otak kiri dan kanan. Kebanyakan kajian tertumpu pada hemisfera kiri, yang mendominasi fungsi pertuturan dan bahasa, manakala kurang perhatian diberikan kepada penyahkodan maklumat bahasa dari hemisfera kanan. Sehubungan itu, mereka membandingkan prestasi penyahkodan hemisfera serebrum kiri dan kanan peserta untuk mengesahkan kemungkinan menggunakan hemisfera serebrum kanan untuk pemulihan pertuturan.
Di antara 48 subjek yang dikumpul dalam kajian, isyarat ECoG daripada 16 subjek dikumpulkan dari otak kanan.
Dengan membandingkan prestasi penyahkod ResNet dan Swin, kami mendapati bahawa hemisfera otak kanan juga boleh melakukan penyahkodan pertuturan secara stabil, dan kesan penyahkodan adalah lebih kecil daripada hemisfera otak kiri. Ini bermakna bagi pesakit yang mengalami kerosakan pada hemisfera kiri dan kehilangan keupayaan bahasa, menggunakan isyarat saraf dari hemisfera kanan untuk memulihkan bahasa mungkin merupakan penyelesaian yang boleh dilaksanakan. Kemudian, mereka juga meneroka kesan ketumpatan pensampelan elektrod pada kesan penyahkodan pertuturan. Kajian terdahulu kebanyakannya menggunakan grid elektrod berketumpatan lebih tinggi (0.4 mm) , manakala ketumpatan grid elektrod yang biasa digunakan dalam amalan klinikal adalah lebih rendah (LD 1 cm) . Lima peserta menggunakan grid elektrod jenis hibrid (HB) , yang terutamanya pensampelan berketumpatan rendah tetapi menggabungkan elektrod tambahan. Baki empat puluh tiga peserta telah diambil sampel pada ketumpatan rendah. Prestasi penyahkodan sampel hibrid ini (HB) adalah serupa dengan sampel berketumpatan rendah tradisional (LD) . Ini menunjukkan bahawa model boleh mempelajari maklumat pertuturan daripada korteks serebrum dengan ketumpatan pensampelan spatial yang berbeza, yang juga membayangkan bahawa ketumpatan pensampelan yang biasa digunakan dalam amalan klinikal mungkin mencukupi untuk aplikasi antara muka otak-komputer masa hadapan. 3 Penyelidikan mengenai sumbangan kawasan otak yang berbeza di otak kiri dan kanan kepada penyahkodan pertuturan Penyelidik juga meneliti sumbangan bahagian otak yang berkaitan dengan pertuturan dalam proses penyahkodan pertuturan, yang akan membantu untuk masa hadapan. implantasi pertuturan di hemisfera kiri dan kanan otak Peralatan pemulihan memberikan rujukan penting. Menggunakan teknologi oklusi(analisis oklusi) untuk menilai sumbangan kawasan otak yang berbeza kepada penyahkodan pertuturan. Dengan membandingkan model kausal dan bukan sebab bagi penyahkod ResNet dan Swin, didapati bahawa korteks pendengaran menyumbang lebih banyak dalam model bukan sebab akibat Ini menyokong bahawa dalam aplikasi penyahkod pertuturan masa nyata, model kausal mesti digunakan, kerana dalam Penyahkodan pertuturan masa nyata, kita tidak boleh memanfaatkan isyarat neurofeedback. Selain itu, sama ada di hemisfera kanan atau kiri, sumbangan korteks sensorimotor, terutamanya kawasan perut, adalah serupa, yang menunjukkan bahawa implan prostesis saraf di hemisfera kanan mungkin merupakan penyelesaian yang boleh dilaksanakan. Kesimpulannya, penyelidikan ini telah membuat satu siri kemajuan dalam antara muka otak-komputer, tetapi penyelidik juga menyebut beberapa batasan model semasa Sebagai contoh, proses penyahkodan memerlukan data latihan pertuturan yang dipasangkan dengan rakaman ECoG, yang sangat penting untuk afasia. Pesakit mungkin tidak layak. Pada masa hadapan, mereka berharap untuk membangunkan seni bina model yang boleh mengendalikan data bukan grid dan menggunakan data EEG berbilang pesakit dan pelbagai mod dengan lebih baik. Untuk bidang antara muka otak-komputer, penyelidikan semasa masih di peringkat awal Dengan lelaran teknologi perkakasan dan kemajuan pesat teknologi pembelajaran mendalam, idea antara muka otak-komputer yang muncul dalam filem fiksyen sains akan. menjadi lebih dekat dengan realiti. Pautan kertas: https://www.nature.com/articles/s42256-024-00824-8.
Pautan GitHub: https://github.com/flinkerlab/neural_speech_decoding.
Lebih banyak contoh pertuturan yang dijana: https://xc1490.github.io/nsd/.
Atas ialah kandungan terperinci Sintesis EEG pertuturan semula jadi! LeCun memajukan hasil baharu sub-jurnal Nature, dan kod tersebut adalah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!