Maison > Périphériques technologiques > IA > le corps du texte

Utiliser le machine learning pour décoder un cerveau « sans voix » depuis 15 ans et le laisser « parler »

WBOY
Libérer: 2023-04-14 12:46:02
avant
902 Les gens l'ont consulté

​Travail abstrait Big data

Auteur : Miggy

Pour les patients paralysés, la plus grande douleur vient de l'incapacité de communiquer avec le monde extérieur. Bien que le cerveau soit toujours actif et veuille s'exprimer, l'incapacité de piloter les muscles vocaux entraînera une détérioration progressive du mécanisme du langage chez ces patients.

Edward Chang, chef du service de neurochirurgie à l'Université de Californie à San Francisco, développe une technologie d'interface cerveau-ordinateur pour les personnes qui ont perdu la capacité de parler. Son laboratoire se consacre au décodage des signaux cérébraux liés aux commandes des voies vocales et à la transmission des fonctions linguistiques du cerveau via des ordinateurs via des implants neuronaux. Le projet nécessitait non seulement le meilleur matériel neurotechnologique disponible aujourd’hui, mais également de puissants modèles d’apprentissage automatique.

Récemment, cette technologie a également fait de grands progrès, permettant à un patient « sans voix » depuis 15 ans en raison d'une paralysie d'utiliser un ordinateur pour commencer à communiquer avec le monde extérieur. Chang a également enregistré ce processus technique et l'a publié sur IEEE.

Jetons un coup d’œil.

Laissez "parler" un cerveau qui n'a pas parlé depuis 15 ans

L'écran de l'ordinateur affichait "Voulez-vous boire de l'eau ?" "Cette question. En dessous, trois petits points clignotent, puis une ligne de mots apparaît : "Non, je n'ai pas soif. "

L'activité cérébrale permet la communication - il convient de mentionner que le cerveau qui a produit cette conversation était le cerveau d'une personne muette qui n'avait pas parlé depuis plus de quinze ans, à cause d'un accident vasculaire cérébral. d'autres parties de son corps La communication du patient avec le monde extérieur a cessé. Il a essayé de nombreuses nouvelles technologies pour tenter de communiquer avec le monde extérieur. Plus récemment, il a utilisé un pointeur attaché à une casquette de baseball pour taper des mots sur un écran tactile. Efficace mais lent.

Récemment, ce patient s'est porté volontaire pour l'essai clinique de mon groupe de recherche à l'Université de Californie à San Francisco, dans l'espoir d'explorer un moyen de communication plus rapide, jusqu'à présent, il n'avait accès à son cerveau que pendant l'étude. produit du texte, mais il espère contribuer à développer cette technologie pour en faire quelque chose que des gens comme lui peuvent utiliser dans la vie quotidienne

Dans notre étude pilote, la surface du cerveau de ce volontaire était recouverte d'un réseau d'électrodes fines et flexibles qui enregistrent les signaux neuronaux et. les envoie à un décodeur vocal, qui traduit les signaux en ce qu'il veut dire. C'est la première fois qu'une personne paralysée qui ne peut pas parler utilise la neurotechnologie pour « diffuser » depuis son cerveau des mots entiers, pas seulement des lettres. .

Cet essai est l'aboutissement de plus d'une décennie de recherche sur les mécanismes cérébraux sous-jacents qui régissent la parole, et nous sommes incroyablement fiers de ce que nous avons accompli jusqu'à présent. Mais nous ne faisons que commencer. L'UCSF travaille avec des collègues du monde entier pour rendre cette technologie suffisamment sûre, stable et fiable pour une utilisation quotidienne à la maison. Nous travaillons également à améliorer les performances du système, donc cela en vaut la peine

L'interface cerveau-ordinateur a donné. propose un vocabulaire de 50 mots pratiques.

Comment fonctionnent les implants neuronaux ?

La technologie des implants neuronaux a parcouru un long chemin au cours des deux dernières décennies. Le nerf cochléaire dans l'oreille interne ou directement dans le tronc cérébral auditif Il existe également des recherches approfondies sur les implants rétiniens et cérébraux, ainsi que des efforts pour fournir une sensation tactile dans les mains prothétiques. Toutes ces prothèses sensorielles prennent des informations du monde extérieur et les convertissent. en signaux électriques qui sont introduits dans le centre de traitement du cerveau

La semaine dernière, Digest Magazine a également fait état d'un implant qui aide les patients souffrant de perte d'odorat à retrouver leur sens du goût.

Une autre classe de neuroprothèses enregistre l'activité électrique du cerveau et. le convertit en signaux qui contrôlent le monde extérieur, comme un bras robotique, un contrôleur de jeu vidéo ou un curseur sur un écran d'ordinateur. Ce dernier type a été utilisé par des organisations telles que le consortium BrainGate pour permettre aux personnes paralysées de se déplacer. tapez des mots - parfois une lettre à la fois, parfois en utilisant une fonction de saisie semi-automatique pour accélérer la saisie

Ce type de saisie par le cerveau n'est pas nouveau, cependant, les chercheurs mettent souvent des implants en place. Une autre approche a été lancée dans un article de 2021 par. certains de mes collaborateurs dans le cortex moteur, la partie du cerveau qui contrôle le mouvement, qui permet à un utilisateur d'imaginer qu'il tient un stylo sur du papier et écrit une lettre, générant des signaux dans le cortex moteur qui sont traduits en texte. Cette méthode a établi un nouveau record de vitesse de frappe, permettant aux volontaires d'écrire environ 18 mots par minute.

Dans nos dernières recherches en laboratoire, nous avons adopté une approche plus efficace. Au lieu de décoder l'intention de l'utilisateur de déplacer le curseur ou le stylet, nous décodons l'intention de contrôler le conduit vocal, y compris les dizaines de muscles qui contrôlent le larynx (souvent appelé boîte vocale), la langue et les lèvres.

Pour un homme paralysé, une configuration de conversation apparemment simple est rendue possible par un matériel neurotechnologique sophistiqué et un système d'apprentissage automatique qui décode ses signaux cérébraux.

J'ai commencé à travailler dans ce domaine il y a plus de dix ans. En tant que neurochirurgien, je vois souvent des patients souffrant de blessures graves qui les empêchent de parler. À ma grande surprise, dans de nombreux cas, la localisation des lésions cérébrales ne correspondait pas aux syndromes que j'avais découverts à l'école de médecine, et j'ai réalisé que nous avions encore beaucoup à apprendre sur la manière dont le cerveau traite le langage. J'ai décidé d'étudier la neurobiologie sous-jacente du langage et, si possible, de développer une interface cerveau-machine (IMC) pour rétablir la communication entre les personnes ayant perdu le langage. En plus de ma formation en neurochirurgie, mon équipe possède une expertise en linguistique, en génie électrique, en informatique, en bio-ingénierie et en médecine.

Comment les muscles vous aident à parler​

Le langage est l'une des capacités qui rendent les humains uniques. De nombreuses autres espèces émettent des sons, mais seuls les humains combinent un ensemble de sons pour s'exprimer d'innombrables manières différentes. Il s'agit également d'un comportement moteur très complexe : certains experts le considèrent comme le comportement moteur le plus complexe que les humains adoptent. La parole est le produit d'un flux d'air modulé à travers le conduit vocal ; nous façonnons notre respiration en créant des vibrations audibles dans les cordes vocales laryngées et en modifiant la forme de nos lèvres, de notre mâchoire et de notre langue.

Les nombreux muscles du conduit vocal sont complètement différents des muscles articulaires, comme ceux des bras et des jambes, qui ne peuvent bouger que de quelques manières prescrites. Par exemple, les muscles qui contrôlent les lèvres sont des sphincters, tandis que les muscles qui composent la langue sont davantage contrôlés par la pression hydraulique : la langue est principalement constituée d'un volume fixe de tissu musculaire, donc le déplacement d'une partie de la langue modifie son action. façonner ailleurs. La physique qui contrôle le mouvement de ces muscles est complètement différente de celle des biceps ou des ischio-jambiers.

Parce qu'il y a tellement de muscles impliqués et que chacun d'eux a tellement de degrés de liberté, il existe fondamentalement un nombre infini de configurations possibles. Mais lorsque les gens parlent, il s’avère qu’ils utilisent relativement peu d’actions principales (qui varient selon les langues). Par exemple, lorsque les anglophones prononcent le son « d », ils placent leur langue derrière leurs dents ; lorsqu’ils prononcent le son « k », la base de leur langue s’élève pour toucher le plafond à l’arrière de la bouche. Peu de gens réalisent les mouvements musculaires précis, complexes et coordonnés nécessaires pour prononcer les mots les plus simples.

David Moses, membre de l'équipe, examine les lectures des ondes cérébrales des patients [écran de gauche] et les affichages d'activité du système de décodage [écran de droite].

Mon groupe de recherche se concentre sur la partie du cortex moteur du cerveau qui envoie des commandes de mouvement aux muscles du visage, de la gorge, de la bouche et de la langue. Ces régions du cerveau sont multitâches : elles gèrent les mouvements musculaires qui produisent la parole, ainsi que les mouvements de ces mêmes muscles pour avaler, sourire et embrasser.

L’étude de l’activité neuronale dans ces domaines nécessite une résolution spatiale au niveau millimétrique et une résolution temporelle au niveau de la milliseconde. Historiquement, les systèmes d’imagerie non invasifs ont pu fournir l’un ou l’autre, mais pas les deux. Lorsque nous avons commencé cette étude, nous avons constaté qu’il existait très peu de données sur la relation entre les schémas d’activité cérébrale et les composants les plus simples de la parole : les phonèmes et les syllabes.

Ici, nous tenons à remercier nos bénévoles. Au centre d'épilepsie de l'UCSF, les patients se préparant à une intervention chirurgicale ont souvent des électrodes placées chirurgicalement à la surface de leur cerveau pendant plusieurs jours afin que nous puissions cartographier les zones impliquées dans les crises. Pendant ces jours d’arrêt des connexions filaires, de nombreux patients se sont portés volontaires pour participer à des expériences de recherche neurologique utilisant des enregistrements d’électrodes dans leur cerveau, ce qui nous a permis d’étudier les schémas d’activité neuronale pendant que les patients parlent.

Le matériel impliqué s'appelle l'électrocorticographie (ECoG). Les électrodes du système ECoG ne pénètrent pas dans le cerveau mais reposent à sa surface. Nos réseaux peuvent contenir des centaines de capteurs d’électrodes, chacun enregistrant des milliers de neurones. Jusqu'à présent, nous avons utilisé un réseau de 256 canaux. Notre objectif dans ces premières études était de découvrir les schémas d’activité corticale lorsque les gens prononcent des syllabes simples. Nous avons demandé à des volontaires de prononcer des sons et des mots spécifiques, tandis que leurs schémas neuronaux étaient enregistrés et que les mouvements de leur langue et de leur bouche étaient suivis. Parfois, nous faisons cela en leur faisant appliquer du maquillage coloré et en utilisant un système de vision par ordinateur pour extraire les gestes moteurs ; d'autres fois, nous utilisons un appareil à ultrasons placé sous la mâchoire du patient pour imager sa langue en mouvement.

Le système commence par un réseau d’électrodes flexible qui est superposé sur le cerveau du patient pour recevoir les signaux du cortex moteur. Le réseau capture spécifiquement les commandes de mouvement pour le conduit vocal du patient. Un port fixé au crâne mène à des fils connectés à un système informatique, qui décode les signaux cérébraux et les traduit en ce que le patient veut dire, affichant ses réponses sur un écran.

Nous utilisons ces systèmes pour faire correspondre les modèles neuronaux au mouvement du conduit vocal. Au départ, nous nous posions beaucoup de questions sur Neural Code. Une possibilité est que l'activité neuronale code la direction de muscles spécifiques, le cerveau activant et désactivant essentiellement ces muscles comme si on appuyait sur les touches d'un clavier, et par un autre modèle déterminant la vitesse à laquelle les muscles se contractent. Une autre raison est que l’activité neuronale correspond au schéma coordonné de contractions musculaires utilisées pour produire un certain son. (Pour produire le son « aaah », par exemple, la langue et la mâchoire doivent tomber.) Nous avons découvert qu’il existe une carte représentationnelle qui contrôle différentes parties du conduit vocal, ainsi que différentes régions du cerveau. Nous pouvons combiner les deux pour produire un discours fluide.

L'utilité de l'intelligence artificielle dans les neurotechnologies d'aujourd'hui

Notre travail dépend des progrès de l'intelligence artificielle au cours de la dernière décennie. Nous pouvons introduire les données collectées sur l'activité neuronale et la cinématique de la parole dans un réseau neuronal, puis laisser l'algorithme d'apprentissage automatique trouver des modèles de corrélation entre les deux ensembles de données, établissant ainsi un lien entre l'activité neuronale et la parole produite et l'utiliser. modèle pour produire de la parole ou du texte généré par ordinateur. Mais cette technique ne permet pas de former des algorithmes pour les personnes paralysées car il nous manque la moitié des données : nous disposons des schémas neuronaux, mais pas des mouvements musculaires correspondants.

Nous avons réalisé qu'une façon plus intelligente d'utiliser l'apprentissage automatique consiste à diviser le problème en deux étapes. Tout d’abord, le décodeur traduit les signaux du cerveau en mouvements intentionnels des muscles du conduit vocal, puis traduit ces mouvements intentionnels en parole ou texte synthétisé.

Nous appelons cela une approche bionique car elle reproduit les schémas de mouvement biologiques ; dans le corps humain, l'activité neuronale est directement responsable du mouvement du conduit vocal et seulement indirectement du son produit. Un grand avantage de cette approche réside dans la deuxième étape consistant à entraîner le décodeur à convertir les mouvements musculaires en sons. La relation entre le mouvement des voies vocales et le son étant plus accessible, nous avons pu entraîner le décodeur sur un vaste ensemble de données provenant de personnes non paralysées.

Le prochain grand défi consiste à apporter la technologie aux personnes qui peuvent réellement en bénéficier.

Les National Institutes of Health (NIH) financent notre essai pilote qui débutera en 2021. Nous avons déjà deux volontaires paralysés implantés avec des puces ECoG, et nous espérons en recruter davantage dans les années à venir. L'objectif principal est d'améliorer leur communication et nous mesurons les performances en mots par minute. L'adulte moyen qui tape sur un clavier complet peut taper 40 mots par minute, les dactylos les plus rapides atteignant des vitesses de plus de 80 mots par minute.

Futur : utilisez la voix au lieu de la sortie de texte

Nous pensons que l'utilisation du système vocal pour parler aura un meilleur effet. Les humains parlent beaucoup plus vite qu’ils ne tapent : les anglophones peuvent facilement produire 150 mots par minute. Nous voulons que les personnes paralysées communiquent à 100 mots par minute. Pour atteindre cet objectif, nous avons encore beaucoup de travail à faire.

La procédure d'implantation est similaire aux autres implants. Tout d’abord, le chirurgien retire une petite partie du crâne ; ensuite, le réseau flexible d’ECoG est délicatement placé sur la surface corticale. Un petit port est ensuite fixé au crâne et sort par une ouverture séparée dans le cuir chevelu. Nous avons actuellement besoin de ce port, qui se connecte à des fils externes pour transmettre les données des électrodes, mais nous espérons rendre le système sans fil à l'avenir.

Nous avons envisagé d'utiliser des microélectrodes pénétrantes car elles peuvent enregistrer des populations neuronales plus petites et donc fournir plus de détails sur l'activité neuronale. Mais le matériel actuel n’est pas aussi puissant et sûr que l’ECoG pour une utilisation clinique.

Une autre considération est que les électrodes pénétrantes nécessitent souvent un recalibrage quotidien pour convertir les signaux neuronaux en commandes claires, et les recherches sur les dispositifs neuronaux montrent que la vitesse d'installation et la fiabilité des performances sont essentielles pour inciter les gens à utiliser la technologie. C'est pourquoi nous accordons la priorité à la stabilité lors de la création de systèmes « plug and play » pour une utilisation à long terme. Nous avons mené une étude sur les changements dans les signaux neuronaux au fil du temps chez des volontaires et avons constaté que le décodeur fonctionnait mieux s'il utilisait des modèles de données sur plusieurs sessions et jours. En termes d'apprentissage automatique, nous disons que les « poids » du décodeur sont hérités, ce qui entraîne un signal neuronal intégré.

Comme nos volontaires paralysés étaient incapables de parler pendant que nous observions leurs schémas cérébraux, nous avons demandé à notre premier volontaire d'essayer deux approches différentes. Il a commencé par une liste de 50 mots pratiques pour un usage quotidien, tels que « faim », « soif », « s'il vous plaît », « aide » et « ordinateur ». Au cours de 48 séances réparties sur plusieurs mois, nous lui avons parfois demandé d'imaginer prononcer chaque mot de la liste et parfois lui avons demandé de parler et d'essayer de « dire » les mots. Nous avons constaté qu’essayer de parler produisait des signaux cérébraux plus clairs, suffisants pour entraîner l’algorithme de décodage. Le volontaire peut ensuite utiliser ces mots de la liste pour générer une phrase de son choix, comme « Non, je n'ai pas soif ».

Nous travaillons maintenant à élargir notre vocabulaire. Pour y parvenir, nous devons continuer à améliorer les algorithmes et les interfaces actuels, mais je pense que ces améliorations se produiront dans les mois et les années à venir. Maintenant que la preuve de principe est établie, l’objectif est l’optimisation. Nous pouvons nous concentrer sur la création de systèmes plus rapides, plus précis et, surtout, plus sûrs et plus fiables. Les choses devraient aller vite maintenant.

Les plus grandes avancées pourraient survenir si nous parvenons à mieux comprendre les systèmes cérébraux que nous essayons de décoder et comment la paralysie modifie leur activité. Nous avons réalisé que les schémas neuronaux des patients paralysés incapables d’envoyer des commandes aux muscles de leurs voies vocales sont très différents de ceux des patients épileptiques capables d’envoyer des commandes. Nous tentons un exploit ambitieux en matière d'ingénierie de l'IMC, et il reste encore beaucoup à apprendre sur les neurosciences sous-jacentes. Nous pensons que tout est réuni pour donner à nos patients la capacité de communiquer.

Source du matériel : https://spectrum.ieee.org/brain-computer-interface-speech​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal