Rumah > Peranti teknologi > AI > teks badan

Gunakan pembelajaran mesin untuk menyahkod otak yang telah 'tidak bersuara' selama 15 tahun dan biarkan ia 'bercakap'

WBOY
Lepaskan: 2023-04-14 12:46:02
ke hadapan
895 orang telah melayarinya

​Kerja abstrak data besar

Pengarang: Miggy

Bagi pesakit lumpuh, kesakitan yang paling teruk datang daripada ketidakupayaan untuk berkomunikasi dengan dunia luar. Walaupun otak masih aktif dan ingin meluahkan, ketidakupayaan untuk memacu otot vokal akan menyebabkan mekanisme bahasa pesakit sebegitu merosot secara beransur-ansur.

Edward Chang, ketua pembedahan saraf di University of California, San Francisco, sedang membangunkan teknologi antara muka otak-komputer untuk orang yang kehilangan keupayaan untuk bercakap. Makmalnya didedikasikan untuk menyahkod isyarat otak yang berkaitan dengan arahan saluran vokal dan mengeluarkan fungsi bahasa otak melalui komputer melalui implan saraf. Projek ini memerlukan bukan sahaja perkakasan neuroteknologi terbaik yang tersedia hari ini, tetapi juga model pembelajaran mesin yang berkuasa.

Baru-baru ini, teknologi ini juga telah mencapai kemajuan yang besar, membolehkan pesakit yang telah "tidak bersuara" akibat lumpuh selama 15 tahun menggunakan komputer untuk mula berkomunikasi dengan dunia luar. Chang juga merekodkan proses teknikal ini dan menerbitkannya di IEEE.

Mari kita lihat.

Biar otak yang sudah 15 tahun tidak bercakap "bercakap"

Skrin komputer terpapar "Awak nak minum air tak? " "Soalan ini. Di bawah, tiga titik kecil berkelip, dan kemudian baris perkataan muncul: "Tidak, saya tidak dahaga. "

Aktiviti otak membolehkan komunikasi berlaku - perlu dinyatakan bahawa otak yang menghasilkan perbualan ini adalah otak orang bisu yang tidak bercakap selama lebih daripada 15 tahun. 15 tahun lalu, disebabkan oleh strok, beliau Otak pesakit telah menjadi "terputus" dari seluruh tubuhnya, dan komunikasi dengan dunia luar telah berhenti Dia telah mencuba banyak teknologi baru untuk cuba berkomunikasi dengan dunia luar, dia menggunakan penunjuk yang dilampirkan kepada topi besbol untuk menaip perkataan pada skrin sentuh , kaedah ini berkesan tetapi perlahan

Baru-baru ini, pesakit ini menawarkan diri untuk menyertai ujian klinikal yang dijalankan oleh kumpulan penyelidik saya di University of California, San Francisco, dengan harapan untuk meneroka kaedah komunikasi yang lebih pantas Dia hanya mempunyai akses kepada sistem teks janaan otak ini semasa penyelidikan, tetapi dia berharap dapat membantu membangunkan teknologi menjadi sesuatu yang boleh digunakan oleh orang seperti dia dalam kehidupan seharian mereka

dalam kajian perintis kami Dalam kajian itu, otak sukarelawan itu ditutup dengan pelbagai elektrod nipis dan fleksibel yang merekodkan isyarat saraf dan menghantarnya ke penyahkod pertuturan, yang menterjemahkan isyarat itu ke dalam apa yang dia mahu katakan Untuk pertama kalinya, penyelidik telah menggunakan neuroteknologi untuk "menyiarkan" seluruh perkataan dari otak, bukan hanya huruf Percubaan adalah kemuncak penyelidikan lebih daripada satu dekad ke dalam mekanisme otak yang mengawal pertuturan. telah mencipta hasil yang terbaik setakat ini. Saya amat berbangga dengan apa yang telah kami capai setakat ini. Tetapi kami baru memulakan makmal saya di UCSF bekerja dengan rakan sekerja di seluruh dunia untuk menjadikan teknologi ini selamat, stabil. dan cukup boleh dipercayai untuk kegunaan harian di rumah. Kami masih mengusahakannya. Meningkatkan prestasi sistem, jadi ia berbaloi dengan usaha

Versi pertama antara muka otak-komputer memberikan perbendaharaan kata kepada sukarelawan. 50 perkataan praktikal. Bagaimana implan berfungsi? antara muka dengan saraf koklea di telinga dalam atau terus ke batang otak pendengaran, dan terdapat juga banyak penyelidikan ke dalam implan retina dan otak, serta usaha untuk memberikan sensasi sentuhan pada tangan prostetik, yang semuanya mengambil maklumat dari dunia luar . aktiviti dan menukarkannya kepada isyarat yang mengawal dunia luar, seperti lengan robot, pengawal permainan video atau kursor pada skrin komputer ini telah digunakan oleh kumpulan seperti konsortium BrainGate untuk memberi orang lumpuh Kawalan. Orang menaip perkataan—kadang-kadang satu huruf pada satu masa, kadangkala menggunakan ciri autolengkap untuk mempercepatkan menaip

Jenis menaip melalui otak ini bukanlah perkara baharu, tetapi penyelidik sering meletakkan implan dalam gerakan , bahagian otak yang mengawal pergerakan, kemudian mengawal kursor bergerak pada papan kekunci maya dengan membayangkan pergerakan fizikal tertentu telah dipelopori oleh beberapa rakan usaha sama saya dalam kertas 2021 Ia membolehkan pengguna membayangkan dia memegang pen kertas dan menulis surat, menjana isyarat dalam korteks motor yang diterjemahkan ke dalam teks. Kaedah ini menetapkan rekod baharu untuk kelajuan menaip, membolehkan sukarelawan menulis kira-kira 18 perkataan seminit.

Dalam penyelidikan makmal terkini kami, kami mengambil pendekatan yang lebih cekap. Daripada menyahkod niat pengguna untuk menggerakkan kursor atau pen, kami menyahkod niat untuk mengawal saluran vokal, termasuk berpuluh-puluh otot yang mengawal laring (sering dipanggil kotak suara), lidah dan bibir.

Bagi seorang lelaki lumpuh, persediaan perbualan yang kelihatan mudah didayakan oleh perkakasan neuroteknologi canggih dan sistem pembelajaran mesin yang menyahkod isyarat otaknya.

Saya mula bekerja dalam bidang ini lebih sepuluh tahun yang lalu. Sebagai pakar bedah saraf, saya sering melihat pesakit yang mengalami kecederaan teruk yang menyebabkan mereka tidak boleh bercakap. Saya terkejut, dalam banyak kes, lokasi kerosakan otak tidak sepadan dengan sindrom yang saya pelajari di sekolah perubatan, dan saya menyedari bahawa kita masih perlu belajar tentang cara otak memproses bahasa. Saya memutuskan untuk mengkaji neurobiologi bahasa dan, jika boleh, membangunkan antara muka mesin otak (BMI) untuk memulihkan komunikasi kepada orang yang kehilangan bahasa. Selain latar belakang pembedahan saraf saya, pasukan saya mempunyai kepakaran dalam linguistik, kejuruteraan elektrik, sains komputer, biokejuruteraan dan perubatan.

Bagaimana otot membantu anda bercakap​

Bahasa adalah salah satu kebolehan yang menjadikan manusia unik. Banyak spesies lain mengeluarkan bunyi, tetapi hanya manusia yang menggabungkan satu set bunyi untuk ekspresi dalam pelbagai cara yang tidak terkira banyaknya. Ia juga merupakan tingkah laku motor yang sangat kompleks—sesetengah pakar menganggapnya sebagai tingkah laku motor yang paling kompleks yang dilakukan oleh orang ramai. Pertuturan adalah hasil aliran udara termodulat melalui saluran vokal; kita membentuk pernafasan kita dengan mencipta getaran yang boleh didengari dalam pita suara laring dan mengubah bentuk bibir, rahang dan lidah kita.

Banyak otot saluran vokal berbeza sama sekali daripada otot berasaskan sendi, seperti otot lengan dan kaki, yang hanya boleh bergerak dalam beberapa cara yang ditetapkan. Sebagai contoh, otot yang mengawal bibir adalah sfinkter, manakala otot yang membentuk lidah lebih dikawal oleh tekanan hidraulik—lidah terutamanya terdiri daripada jumlah tisu otot yang tetap, jadi menggerakkan satu bahagian lidah mengubahnya. bentuk di tempat lain. Fizik yang mengawal pergerakan otot ini sama sekali berbeza daripada bisep atau hamstring.

Oleh kerana terdapat begitu banyak otot yang terlibat, dan setiap daripadanya mempunyai begitu banyak darjah kebebasan, pada asasnya terdapat kemungkinan konfigurasi yang tidak terhingga. Tetapi apabila orang bercakap, ternyata mereka menggunakan tindakan teras yang agak sedikit (yang berbeza-beza mengikut bahasa). Sebagai contoh, apabila penutur bahasa Inggeris menyebut bunyi "d", mereka meletakkan lidah mereka di belakang gigi mereka; Sedikit orang menyedari pergerakan otot yang tepat, kompleks dan terkoordinasi yang diperlukan untuk menuturkan perkataan yang paling mudah.

Ahli pasukan David Moses melihat bacaan gelombang otak pesakit [skrin kiri] dan paparan aktiviti sistem penyahkodan [skrin kanan].

Kumpulan penyelidikan saya memfokuskan pada bahagian korteks motor otak yang menghantar arahan pergerakan ke otot muka, tekak, mulut dan lidah. Kawasan otak ini berbilang tugas: Mereka menguruskan pergerakan otot yang menghasilkan pertuturan, serta pergerakan otot yang sama untuk menelan, tersenyum dan mencium.

Mempelajari aktiviti saraf dalam kawasan ini memerlukan resolusi spatial peringkat milimeter dan resolusi temporal peringkat milisaat. Dari segi sejarah, sistem pengimejan bukan invasif telah dapat menyediakan satu atau yang lain, tetapi tidak kedua-duanya. Apabila kami memulakan kajian ini, kami mendapati bahawa terdapat sangat sedikit data tentang cara corak aktiviti otak berkaitan dengan komponen pertuturan yang paling mudah: fonem dan suku kata.

Di sini kami ingin mengucapkan terima kasih kepada sukarelawan kami. Di Pusat Epilepsi UCSF, pesakit yang bersedia untuk pembedahan selalunya meletakkan elektrod secara pembedahan pada permukaan otak mereka selama beberapa hari supaya kami boleh memetakan kawasan yang terlibat dalam sawan. Semasa masa henti berwayar ini, ramai pesakit menawarkan diri untuk mengambil bahagian dalam eksperimen penyelidikan neurologi, yang menggunakan rakaman elektrod dalam otak mereka, membolehkan kami mengkaji corak aktiviti saraf semasa pesakit bercakap.

Perkakasan yang terlibat dipanggil electrocorticography (ECoG). Elektrod dalam sistem ECoG tidak menembusi otak tetapi duduk di permukaannya. Tatasusunan kami boleh mengandungi beratus-ratus penderia elektrod, setiap satu merekodkan beribu-ribu neuron. Setakat ini kami telah menggunakan tatasusunan dengan 256 saluran. Matlamat kami dalam kajian awal ini adalah untuk menemui corak aktiviti kortikal apabila orang bercakap suku kata mudah. Kami meminta sukarelawan untuk bercakap bunyi dan perkataan tertentu, sementara corak saraf mereka direkodkan dan pergerakan lidah dan mulut mereka dijejaki. Kadang-kadang kami melakukan ini dengan meminta mereka menggunakan cat muka berwarna-warni dan menggunakan sistem penglihatan komputer untuk mengekstrak gerak isyarat motor pada masa lain, kami menggunakan mesin ultrasound yang diletakkan di bawah rahang pesakit untuk menggambarkan lidah mereka yang bergerak.

Sistem bermula dengan susunan elektrod fleksibel yang ditindih pada otak pesakit untuk menerima isyarat daripada korteks motor. Tatasusunan secara khusus menangkap arahan pergerakan untuk saluran vokal pesakit. Port yang dipasang pada tengkorak membawa kepada wayar yang disambungkan ke sistem komputer, yang menyahkod isyarat otak dan menterjemahkannya ke dalam apa yang pesakit ingin katakan, memaparkan jawapan mereka pada paparan.

Kami menggunakan sistem ini untuk memadankan corak saraf dengan pergerakan saluran vokal. Pada mulanya, kami mempunyai banyak soalan tentang Kod Neural. Satu kemungkinan ialah aktiviti saraf mengekod arah otot tertentu, dengan otak pada asasnya menghidupkan dan mematikan otot tersebut seperti menekan kekunci pada papan kekunci, dan melalui corak lain menentukan berapa cepat otot mengecut. Satu lagi ialah aktiviti saraf sepadan dengan corak kontraksi otot yang diselaraskan yang digunakan untuk menghasilkan bunyi tertentu. (Untuk membuat bunyi "aaah," sebagai contoh, kedua-dua lidah dan rahang perlu jatuh.) Kami mendapati bahawa terdapat peta perwakilan yang mengawal bahagian yang berbeza pada saluran vokal, serta kawasan otak yang berbeza. Kita boleh menggabungkan kedua-duanya untuk menghasilkan pertuturan yang lancar.

Utiliti kecerdasan buatan dalam neurotek hari ini

Kerja kami bergantung pada kemajuan dalam kecerdasan buatan sepanjang dekad yang lalu. Kami boleh menyuapkan data yang dikumpul pada aktiviti saraf dan kinematik pertuturan ke dalam rangkaian saraf, dan kemudian biarkan algoritma pembelajaran mesin mencari corak dalam korelasi antara dua set data, dengan itu mewujudkan pautan antara aktiviti saraf dan pertuturan yang dihasilkan dan menggunakan ini model untuk menghasilkan ucapan atau teks yang dihasilkan oleh komputer. Tetapi teknik ini tidak boleh melatih algoritma untuk orang lumpuh kerana kami kehilangan separuh data: kami mempunyai corak saraf, tetapi bukan pergerakan otot yang sepadan.

Kami menyedari bahawa cara yang lebih bijak untuk menggunakan pembelajaran mesin ialah memecahkan masalah kepada dua langkah. Mula-mula, penyahkod menterjemah isyarat dari otak ke dalam pergerakan otot yang dimaksudkan dalam saluran vokal, dan kemudian menterjemahkan pergerakan yang dimaksudkan ini ke dalam ucapan atau teks yang disintesis.

Kami memanggilnya pendekatan bionik kerana ia mereplikasi corak pergerakan biologi dalam tubuh manusia, aktiviti saraf bertanggungjawab secara langsung untuk pergerakan saluran vokal dan hanya secara tidak langsung untuk bunyi yang dihasilkan. Kelebihan besar pendekatan ini ialah langkah kedua melatih penyahkod untuk menukar pergerakan otot kepada bunyi. Oleh kerana hubungan antara gerakan saluran vokal dan bunyi lebih mudah diakses, kami dapat melatih penyahkod pada set data yang besar daripada orang yang tidak lumpuh.

Cabaran besar seterusnya ialah membawa teknologi kepada orang yang sebenarnya boleh mendapat manfaat daripadanya.

Institut Kesihatan Kebangsaan (NIH) membiayai percubaan perintis kami, yang akan bermula pada 2021. Kami sudah mempunyai dua sukarelawan lumpuh yang ditanam dengan susunan ECoG, dan kami berharap untuk merekrut lebih ramai lagi pada tahun-tahun akan datang. Matlamat utama adalah untuk meningkatkan komunikasi mereka dan kami mengukur prestasi dalam perkataan seminit. Purata orang dewasa menaip pada papan kekunci penuh boleh menaip 40 perkataan seminit, dengan jurutaip terpantas mencapai kelajuan lebih 80 perkataan seminit.

Masa Depan: Gunakan suara dan bukannya output teks

Kami percaya bahawa menggunakan sistem suara untuk bercakap akan menjadi lebih baik. Manusia bercakap lebih cepat daripada mereka menaip: Penutur bahasa Inggeris boleh menyebut 150 perkataan seminit dengan mudah. Kami mahu orang lumpuh berkomunikasi pada 100 patah perkataan seminit. Untuk mencapai matlamat ini, kami masih mempunyai banyak kerja yang perlu dilakukan.

Prosedur implantasi adalah serupa dengan implan lain. Pertama, pakar bedah mengeluarkan sebahagian kecil tengkorak seterusnya, susunan ECoG yang fleksibel diletakkan perlahan-lahan pada permukaan kortikal. Sebuah pelabuhan kecil kemudian diikat ke tengkorak dan keluar melalui bukaan berasingan di kulit kepala. Pada masa ini kami memerlukan port ini, yang menyambung ke wayar luaran untuk menghantar data daripada elektrod, tetapi kami berharap untuk menjadikan sistem tanpa wayar pada masa hadapan.

Kami mempertimbangkan untuk menggunakan mikroelektrod penembusan kerana ia boleh merekodkan populasi saraf yang lebih kecil dan oleh itu memberikan lebih terperinci tentang aktiviti saraf. Tetapi perkakasan semasa tidak sekuat dan selamat seperti ECoG untuk kegunaan klinikal.

Pertimbangan lain ialah elektrod penembusan selalunya memerlukan penentukuran semula setiap hari untuk menukar isyarat saraf kepada arahan yang jelas, dan penyelidikan pada peranti saraf menunjukkan bahawa kelajuan persediaan dan kebolehpercayaan prestasi adalah perkara yang membuatkan orang ramai menggunakan kunci teknologi. Itulah sebabnya kami mengutamakan kestabilan apabila mencipta sistem "plug and play" untuk kegunaan jangka panjang. Kami menjalankan kajian melihat perubahan dalam isyarat saraf dari semasa ke semasa dalam sukarelawan dan mendapati bahawa penyahkod berprestasi lebih baik jika ia menggunakan corak data merentas berbilang sesi dan hari. Dalam istilah pembelajaran mesin, kami mengatakan bahawa "berat" penyahkod diwarisi, menghasilkan isyarat saraf bersepadu.

Oleh kerana sukarelawan kami yang lumpuh tidak dapat bercakap semasa kami memerhati corak otak mereka, kami meminta sukarelawan pertama kami untuk mencuba dua pendekatan berbeza. Dia bermula dengan senarai 50 perkataan yang sesuai untuk kegunaan harian, seperti "lapar," "dahaga," "tolong," "tolong" dan "komputer." Sepanjang 48 sesi selama beberapa bulan, kami kadang-kadang memintanya membayangkan menyebut setiap perkataan dalam senarai dan kadang-kadang memintanya bercakap dan cuba "mengatakan" perkataan itu. Kami mendapati bahawa cuba bercakap menghasilkan isyarat otak yang lebih jelas yang mencukupi untuk melatih algoritma penyahkodan. Sukarelawan kemudian boleh menggunakan perkataan ini daripada senarai untuk menghasilkan ayat pilihannya sendiri, seperti "Tidak, saya tidak haus."

Kami sedang berusaha untuk mengembangkan perbendaharaan kata kami. Untuk mencapai matlamat ini, kami perlu terus menambah baik algoritma dan antara muka semasa, tetapi saya percaya peningkatan ini akan berlaku dalam beberapa bulan dan tahun akan datang. Sekarang bahawa bukti prinsip telah ditetapkan, matlamatnya adalah pengoptimuman. Kami boleh memberi tumpuan untuk menjadikan sistem kami lebih pantas, lebih tepat dan—paling penting—lebih selamat dan boleh dipercayai. Perkara sepatutnya bergerak pantas sekarang.

Pencapaian terbesar mungkin datang jika kita dapat memahami dengan lebih baik sistem otak yang cuba kita dekodkan, dan cara lumpuh mengubah aktivitinya. Kami telah menyedari bahawa corak saraf pesakit lumpuh yang tidak dapat menghantar arahan kepada otot saluran vokal mereka sangat berbeza daripada pesakit epilepsi yang dapat menghantar arahan. Kami sedang mencuba pencapaian yang bercita-cita tinggi dalam kejuruteraan BMI, dan masih banyak yang perlu dipelajari tentang neurosains asas. Kami percaya semuanya bersatu untuk memberi pesakit kami keupayaan untuk berkomunikasi.

Sumber bahan: https://spectrum.ieee.org/brain-computer-interface-speech​

Atas ialah kandungan terperinci Gunakan pembelajaran mesin untuk menyahkod otak yang telah 'tidak bersuara' selama 15 tahun dan biarkan ia 'bercakap'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan