매년 전 세계적으로 6,900만 명이 넘는 사람들이 외상성 뇌 손상을 겪고 있으며, 이들 중 다수는 말, 타이핑, 몸짓을 통해 의사소통을 할 수 없습니다. 연구자들이 비침습적인 방식으로 뇌 활동에서 직접 언어를 해독할 수 있는 기술을 개발한다면 이들의 삶은 크게 향상될 것입니다. 이제 Meta는 이 문제를 해결하기 위해 새로운 연구를 진행했습니다.
방금 메타AI 공식 블로그에 AI를 활용해 뇌 활동에서 음성을 직접 해독할 수 있는 신기술을 소개하는 글이 게재됐습니다.
이 AI는 3초의 두뇌 활동 기간 동안 사람들이 매일 사용하는 793개 단어의 어휘에서 해당 음성 조각을 최대 73%의 정확도로 해독할 수 있습니다.
뇌 활동에서 음성을 해독하는 것은 신경과학자 및 임상의의 오랜 목표였지만 대부분의 진전은 정위 뇌파검사 및 전기피질검사와 같은 침습적 뇌 기록 기술에 의존해 왔습니다.
이러한 장치는 비침습적 방법보다 더 명확한 신호를 제공할 수 있지만 신경외과적 개입이 필요합니다.
이 연구 결과는 뇌 활동 기록에서 음성을 해독하는 것이 가능하다는 것을 보여주지만, 비침습적 방법을 사용하여 음성을 해독하면 궁극적으로 더 많은 사람들이 혜택을 누릴 수 있는 더 안전하고 확장 가능한 솔루션을 제공할 수 있습니다.
그러나 비침습적 녹음은 시끄러운 것으로 악명 높고 녹음 세션과 개인마다 개인의 뇌 및 센서 배치의 차이를 포함하여 상당한 차이가 있을 수 있으므로 이는 매우 어렵습니다. Meta는 대조 학습으로 훈련된 딥 러닝 모델을 생성한 다음 이를 사용하여 비침습적 뇌 녹음 및 음성의 정렬을 최대화함으로써 이러한 문제를 해결합니다.
이를 위해 Meta는 2020년 FAIR 팀이 개발한 오픈 소스 자기 지도 학습 모델인 wave2vec 2.0을 사용하여 오디오북을 듣는 자원 봉사자의 두뇌에서 음성의 복잡한 표현을 식별했습니다. Meta는 신경 활동으로 인해 발생하는 전기장과 자기장의 변동을 각각 측정하는 뇌파검사와 자기뇌파검사(줄여서 EEG 및 MEG)라는 두 가지 비침습적 기술에 중점을 두고 있습니다.
실제로 이 두 시스템은 수백 개의 센서를 사용하여 초당 약 1,000개의 거시적 뇌 활동 스냅샷을 촬영할 수 있습니다. Meta는 학술 기관의 오픈 소스 EEG 및 MEG 데이터 세트 4개를 활용하여 169명의 건강한 자원봉사자가 오디오북과 영어 및 네덜란드어로 된 문장을 듣는 150시간 이상의 녹음을 활용합니다.
Meta는 이러한 EEG 및 MEG 기록을 잔여 연결이 있는 표준 심층 컨벌루션 네트워크로 구성된 "뇌" 모델에 공급합니다.
개인의 뇌 해부학, 뇌 영역의 신경 기능 위치 및 타이밍 차이, 기록 중 센서 위치에 따라 EEG 및 MEG 기록이 개인마다 크게 다른 것으로 알려져 있습니다.
실제로 이는 뇌 데이터를 분석하려면 템플릿 뇌에서 뇌 신호를 다시 조정하기 위한 복잡한 엔지니어링 파이프라인이 필요한 경우가 많다는 것을 의미합니다. 이전 연구에서 뇌 디코더는 품사 범주 또는 작은 어휘의 단어와 같은 제한된 음성 특징 세트를 예측하기 위해 소수의 녹음에 대해 훈련되었습니다.
연구를 용이하게 하기 위해 Meta는 모든 뇌 기록을 공통 공간에 배열하도록 엔드투엔드 학습되는 새로운 주제 임베딩 레이어를 설계했습니다.
비침습적 뇌 신호에서 음성을 해독하기 위해 Meta는 음성 및 해당 뇌 활동을 보정하기 위해 대조 학습을 통해 모델을 훈련했습니다. 마지막으로 Meta의 아키텍처는 뇌 모델의 출력을 음성의 심층 표현을 사용하여 일치로 변환하는 방법을 학습했습니다. 참가자들에게 선보였습니다.
Meta의 이전 작업에서 우리는 wav2vec 2.0을 사용하여 이 음성 알고리즘이 뇌와 일치하는 음성 표현을 생성하는 방법을 자동으로 학습한다는 것을 보여주었습니다.
wav2vec 2.0에서 음성의 "뇌와 유사한" 표현이 등장하면서 Meta 연구자들이 자체 디코더를 구축하는 것이 자연스러운 선택이 되었습니다. 이는 Meta 연구자들이 뇌 신호에서 어떤 표현을 추출해야 하는지 이해하는 데 도움이 되기 때문입니다.
Meta는 최근 동일한 음성에 대한 응답으로 뇌(오른쪽)에 매핑된 wav2vec 2.0(왼쪽)의 활성화를 시연했습니다. 알고리즘의 첫 번째(쿨) 레이어에 있는 표현은 초기 청각 피질에 매핑되고 가장 깊은 레이어는 더 높은 수준의 뇌 영역(예: 전두엽 및 두정엽 피질)에 매핑됩니다.
훈련 후 Meta 시스템은 소위 제로(zero)를 수행합니다. -샷 분류: 두뇌 활동의 한 조각이 주어지면 그 사람이 실제로 들었던 수많은 새로운 오디오 조각으로부터 결정할 수 있습니다.
알고리즘은 사람이 가장 많이 들을 가능성이 있는 단어를 추론합니다. 이는 인공 지능이 음성을 인식할 때 뇌 활동에 대한 시끄럽고 다양한 비침습적 녹음을 디코딩하는 방법을 성공적으로 학습할 수 있다는 점을 보여주기 때문에 흥미로운 단계입니다.
다음 단계는 연구원들이 이 모델을 확장하여 오디오 클립 풀 없이 뇌 활동에서 직접 음성을 디코딩할 수 있는지, 즉 안전하고 다용도의 음성 디코더를 향해 나아갈 수 있는지 확인하는 것입니다. 연구원들의 분석은 wav2vec 2.0 및 주제 레이어 사용을 포함하여 우리 알고리즘의 여러 구성 요소가 디코딩 성능에 도움이 된다는 것을 추가로 보여줍니다.
또한 Meta의 알고리즘은 EEG 및 MEG 녹음 횟수에 따라 향상됩니다. 실제로 이는 메타 연구자의 방법이 대량의 이종 데이터를 추출함으로써 이점을 얻을 수 있으며 원칙적으로 작은 데이터 세트의 디코딩을 개선하는 데 도움이 될 수 있음을 의미합니다.
특정 참가자로부터 많은 양의 데이터를 수집하는 것이 어려운 경우가 많기 때문에 이는 중요합니다. 예를 들어, 시스템이 자신에게 적합한지 확인하기 위해 환자에게 스캐너에서 수십 시간을 보내도록 요청하는 것은 비현실적입니다. 대신, 알고리즘은 많은 개인과 조건을 포함하는 대규모 데이터세트에 대해 사전 훈련된 다음, 적은 데이터로 새로운 환자의 뇌 활동에 대한 디코딩 지원을 제공할 수 있습니다.
Meta의 연구는 자체 감독 인공 지능이 이러한 데이터에 내재된 소음과 가변성에도 불구하고 뇌 활동의 비침습적 기록에서 인식된 음성을 성공적으로 해독할 수 있다는 결과를 보여주므로 고무적입니다. 물론 이러한 결과는 첫 번째 단계에 불과합니다. 이 연구 노력에서 Meta는 음성 인식 해독에 중점을 두었지만 환자 의사소통의 궁극적인 목표를 달성하려면 이 작업을 음성 생성으로 확장해야 합니다.
이 연구 분야는 환자를 돕는 것 이상으로 잠재적으로 컴퓨터와 상호 작용하는 새로운 방법을 가능하게 하는 것을 포함할 수 있습니다.
더 큰 그림으로 보면 Meta의 작업은 인간의 두뇌를 더 잘 이해하기 위해 인공 지능을 사용하려는 과학계의 노력의 일부입니다. Meta는 미래 과제에 대한 진행을 가속화하기 위해 이 연구를 공개적으로 공유하기를 희망합니다.
논문 링크: https://arxiv.org/pdf/2208.12266.pdf
이 백서는 단일 엔드투엔드 아키텍처를 제안합니다. 다수의 개인 대조 학습은 자연어의 자기 지도 표현을 예측하기 위해 그룹으로 훈련됩니다.
자연 음성을 들으면서 169명의 자원 봉사자로부터 뇌자기검사 또는 뇌파검사(M/EEG)로 녹음된 데이터를 포함하여 4개의 공개 데이터 세트에서 모델을 평가했습니다.
이는 비침습적 뇌 활동 기록에서 자연어 처리를 실시간으로 디코딩하는 새로운 아이디어를 제공합니다.
먼저 신경 디코딩의 일반적인 작업을 공식화하고 대조 손실을 사용하여 훈련을 장려합니다. 뇌 디코딩을 위한 딥러닝 아키텍처를 소개하기 전에 사전 훈련된 자기 지도 모듈 wav2vec 2.0이 제공하는 풍부한 음성 표현을 소개합니다.
우리의 목표는 건강한 자원봉사자들이 모국어로 말하는 문장을 수동적으로 듣는 동안 비침습적 자기뇌파검사(MEG) 또는 뇌파검사(EEG)로 기록된 시계열의 고차원 뇌 신호에서 음성을 해독하는 것입니다.
구어가 뇌에서 어떻게 표현되는지는 거의 알려져 있지 않으므로 디코더는 뇌와 관련된 것으로 알려진 기본 음성 표현을 예측하기 위해 지도 방식으로 훈련되는 경우가 많습니다.
경험적으로, 우리는 이 직접 회귀 접근 방식이 몇 가지 문제에 직면하고 있음을 관찰합니다. 음성이 존재할 때 디코딩 예측은 구별할 수 없는 광대역 구성 요소에 의해 지배되는 것처럼 보입니다(그림 2.A-B).
이 과제를 통해 우리는 대조 손실 도입, 사전 훈련된 심층 음성 표현 및 특수 뇌 디코더라는 세 가지 주요 기여를 하게 되었습니다.
1. 대조 손실
첫째, 회귀는 우리의 목표인 뇌 활동에서 음성을 해독하기 때문에 비효과적인 손실일 수 있다고 추론합니다. 따라서 우리는 이를 대조 손실인 "CLIP" 손실로 대체합니다. 이는 원래 텍스트와 이미지라는 두 가지 양식 모두에서 잠재 표현을 일치시키도록 설계되었습니다.
2. 사전 훈련된 심층 음성 표현
두 번째로, Mel 스펙트럼은 음성의 낮은 수준 표현이므로 풍부한 피질 표현과 일치할 가능성이 없습니다. 따라서 우리는 멜 스펙트럼 Y를 엔드투엔드("Deep Mel" 모델)로 학습되거나 독립적인 자기 지도 음성 모델로 학습된 음성의 잠재 표현으로 대체합니다. 실제로 우리는 53개 언어로 56,000시간의 음성에 대해 사전 훈련된 wav2vec2-large-xlsr-531을 사용합니다.
3. 전문화된 "브레인 디코더"
마지막으로 뇌 모듈의 경우 심층 신경망 fclip을 사용하여 원본 M/EEG 시계열 X와 해당 대상의 인코딩 단일 샷을 입력합니다. , X와 동일한 속도로 샘플링된 잠재 뇌 표현 Z를 출력합니다.
이 아키텍처는 (1) M/EEG 센서의 공간 주의 계층으로 구성되며, 이는 개체 간 가변성을 활용하기 위해 개체별 1x1 컨볼루션으로 설계됩니다. 컨볼루셔널 블록의 스택입니다.
결과에 따르면 wav2vec 2.0 모델은 1,594개의 클립 중 72.5%의 정확도로 3초의 EEG 신호에서 해당 음성 클립을 식별할 수 있으며, 녹음된 클립에서는 2,604개의 EEG 신호를 식별할 수 있습니다. , 정확도는 19.1%로 높으며 훈련 세트에 없는 문구도 디코딩할 수 있습니다.
위 내용은 메타: 삽관이 필요하지 않습니다! AI는 뇌파를 보고 당신이 생각하는 것을 알 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!