ブレイン コンピューター インターフェイスの最新の進歩が Nature サブジャーナルに掲載され、深層学習の 3 人の巨人の 1 人である LeCun もそれを転送しました。
今回は、神経学的欠陥による失語症の人々がコミュニケーション能力を取り戻すのを助けるために、神経信号を音声合成に使用します。
ニューヨーク大学の研究チームが、軽量畳み込みニューラル ネットワークを使用して音声を一連の解釈可能な音声パラメータ (ピッチ、音量など) にエンコードできる、新しいタイプの微分可能な音声合成装置を開発したと報告されています。 、フォルマント周波数など)を使用して、微分可能な音声合成装置を通じて音声を再合成します。
研究者らは、神経信号をこれらの音声パラメータにマッピングすることで、解釈可能性が高く、データ量が少ない状況にも適用でき、自然な音声を生成できるニューラル音声デコード システムを構築しました。
合計 48 人の研究者が被験者からデータを収集し、将来の高精度ブレイン コンピューター インターフェイスを評価するための音声デコードの検証を行う実験を実施しました。
結果は、フレームワークが高い空間サンプリング密度と低い空間サンプリング密度を処理できること、および左半球と右半球からの EEG 信号を処理できることを示し、強力な音声デコード機能を示しています。
以前、マスク氏のニューラリンク社は被験者の脳に電極を埋め込むことに成功し、これにより簡単なカーソル操作を完了してタイピングなどの機能を実現できるようになった。
ただし、一般にニューラル音声のデコードはより複雑であると考えられています。
神経音声デコーダーやその他の高精度脳コンピューターインターフェースモデルを開発する試みのほとんどは、特殊な種類のデータ、つまり患者の治療中に収集されたてんかんから得られる被験者の皮質電気記録法 (ECoG) 記録に依存しています。
てんかん患者に埋め込まれた電極を使用して、発音中の大脳皮質データを収集します。これらのデータは空間的および時間的解像度が高く、研究者が音声解読の分野で一連の顕著な結果を得るのに役立ちました。
しかし、神経信号の音声デコードには依然として 2 つの大きな課題があります。
神経信号を音声にデコードする初期の試みは、主に線形モデルに依存していました。モデルは通常、巨大なトレーニング データ セットを必要とせず、解釈可能性が高かったですが、精度は非常に低かったです。
最近、ディープ ニューラル ネットワーク、特に畳み込みニューラル ネットワーク アーキテクチャとリカレント ニューラル ネットワーク アーキテクチャの使用に基づいて、音声の中間潜在表現と合成音声の品質をシミュレートするという 2 つの重要な側面で多くの試みが行われています。たとえば、大脳皮質の活動を口の動きの空間にデコードして音声に変換する研究がありますが、デコード性能は強力ですが、再構成された音声は不自然に聞こえます。
一方、ウェーブネットボコーダーや敵対的生成ネットワーク (GAN) などを使用して、自然な音声の再構築に成功する手法もありますが、精度には限界があります。
Nature に掲載された最近の研究では、埋め込み型デバイスを装着した患者を対象に、中間表現空間として量子化された HuBERT 特徴と、これらの特徴を音声波形に変換する事前トレーニング済みの音声合成装置を使用することで、これを実現しました。それは正確かつ自然なことです。
ただし、HuBERT の機能は話者固有の音響情報を表すことができず、固定された統一された話者の音声しか生成できないため、この普遍的な音声を特定の患者の音声に変換するには追加のモデルが必要です。さらに、この研究とこれまでのほとんどの試みでは、非因果的 アーキテクチャが採用されており、実際のアプリケーションでの時間的因果的 (因果的) 操作を必要とするブレイン コンピューター インターフェイスでの使用が制限される可能性があります。
微分可能な音声合成装置の構築ニューヨーク大学ビデオ ラボとフリンカー ラボの研究チームは、脳波(ECoG) 信号から音声への新しいタイプのデコードを導入しました。フレームワークは、音声信号のみを使用する音声符号化および復号化モデルによって生成される低次元潜在表現 (低次元潜在表現) を構築します。
△ニューラル音声デコード フレームワーク 具体的には、フレームワークは 2 つの部分で構成されます。 1 つの部分は ECoG デコーダで、 ECoG 信号を、理解できる音響音声パラメータ (ピッチ、発話されたかどうか、音量、フォルマント周波数など) に変換します。另一部分是語音合成器,它將這些語音參數轉換為頻譜圖。
研究人員建構了一個可微分語音合成器,這使得在訓練ECoG解碼器的過程中,語音合成器也可以參與訓練,共同優化以減少頻譜圖重建的誤差。
這個低維度的潛在空間具有很強的可解釋性,加上輕量級的預訓練語音編碼器產生參考用的語音參數,幫助研究者建立了一個高效的神經語音解碼框架,克服了神經語音解碼領域數據非常稀缺的問題。
該框架能產生非常接近說話者自己聲音的自然語音,並且ECoG解碼器部分可以插入不同的深度學習模型架構,也支援因果操作(causal operations)。
研究人員共收集並處理了48名神經外科病人的ECoG數據,使用多種深度學習架構(包括卷積、循環神經網路和Transformer)作為ECoG解碼器。
該框架在各種模型上都展現出了高準確度,其中以卷積(ResNet)架構獲得的性能最好。本文研究者提出的框架僅透過因果操作和相對較低的採樣率(low-density, 10mm spacing)就能達到高準確度。
他們也展示了能夠從大腦的左右半球都進行有效的語音解碼,將神經語音解碼的應用擴展到了右腦。
△可微分語音合成器架構
可微分語音合成器(speech synthesizer),使得語音的重合成任務變得非常高效,可以用很小的語音合成高保真的貼合原聲的音頻。
可微分語音合成器的原理借鑒了人的發生系統原理,將語音分為Voice(用於建模元音)和Unvoice(用於建模輔音)兩部分。
Voice部分可以先用基頻訊號產生諧波,由F1-F6的共振峰所組成的濾波器濾波得到元音部分的頻譜特徵。
對於Unvoice部分,研究人員則是將白噪聲用相應的濾波器濾波得到對應的頻譜,一個可學習的參數可以調控兩部分在每個時刻的混合比例,在此之後通過響度訊號放大,加入背景雜訊來得到最終的語音頻譜。
△語音編碼器與ECoG解碼器
首先,研究人員直接比較不同模型架構卷積(ResNet)、循環(LSTM)和Transformer(3D Swin)在語音解碼性能上的差異。
值得注意的是,這些模型都可以執行時間上的非因果(non-causal)或因果操作。
解碼模型的因果性對大腦-電腦介面(BCI)應用具有重大意義:因果模型僅利用過去和目前的神經訊號產生語音,而非因果模型還會使用未來的神經訊號,這在即時應用中不可行。
因此,他們專注於比較相同模型在執行非因果和因果操作時的表現。
結果發現,即使是因果版本的ResNet模型也能與非因果版本媲美,二者之間沒有顯著差異。同樣,因果和非因果版本的Swin模型表現相近,但因果版本的LSTM模型表現顯著低於非因果版本。
研究人員展示了幾個關鍵語音參數的平均解碼準確率(N=48),包括聲音權重(用於區分元音和輔音)、響度、音高f0、第一共振峰f1和第二共振峰f2。準確地重建這些語音參數,尤其是音高、聲音權重和前兩個共振峰,對於實現精確的語音解碼和自然地模仿參與者聲音的重建至關重要。
結果表明,無論是非因果或因果模型,都能得到合理的解碼結果,這為未來的研究和應用提供了積極的指引。
研究人員進一步對左右大腦半球的語音解碼結果進行了比較。多數研究集中關注主導語音和語言功能的左腦半球,而對從右腦半球解碼語言訊息的關注較少。
針對這一點,他們比較了參與者左右大腦半球的解碼表現,以此驗證使用右腦半球進行語音恢復的可能性。
在研究收集的48位受試者中,有16位受試者的ECoG訊號是從右腦中擷取。
透過對比 ResNet 和 Swin 解碼器的表現,發現右腦半球也能夠穩定地進行語音解碼,與左腦半球的解碼效果相差較小。
這意味著,對於左腦半球受損、失去語言能力的患者來說,利用右腦半球的神經訊號恢復語言也許是一個可行的方案。
接著,他們也探討了電極取樣密度對語音解碼效果的影響。
先前的研究多採用較高密度的電極網格(0.4 mm),而臨床中通常使用的電極網格密度較低(LD 1 cm)。有五位參與者使用了混合類型(HB)的電極網格,這類網格雖然主要是低密度採樣,但其中加入了額外的電極。剩餘的四十三位參與者都採用低密度採樣。這些混合取樣(HB)的解碼表現與傳統的低密度取樣(LD)相似。
這表明模型能夠從不同空間採樣密度的大腦皮層中學習到語音訊息,這也暗示臨床通常使用的採樣密度對於未來的腦機介面應用也許是足夠的。
三、對於左右腦不同腦區對語音解碼貢獻度的研究
研究人員也檢視了大腦的語音相關區域在語音解碼過程中的貢獻程度,這對於未來在左右腦半球植入語音恢復設備提供了重要的參考。
採用了遮蔽技術(occlusion analysis)來評估不同腦區對語音解碼的貢獻度。
透過對比ResNet 與Swin 解碼器的因果與非因果模型,發現聽覺皮質在非因果模型中的貢獻更大,這側面佐證了在即時語音解碼應用中,必須使用因果模型,因為在即時語音解碼中,我們無法利用神經回饋訊號。
此外,無論是在右腦或左腦半球,感測運動皮質尤其是腹部區域的貢獻度相似,這暗示在右半球植入神經義肢也許是一個可行的方案。
最後總結來說,該研究在腦機介面上面取得了一系列的進展,不過研究人員也提到了目前模型的一些限制,例如解碼流程需要有與ECoG記錄配對的語音訓練數據,這對失語患者可能不適用。
未來他們希望開發能處理非網格資料的模型架構,以及更好地利用多病人、多模態腦電資料。
對於腦機介面領域來說,目前的研究還處於相當早期的階段,伴隨著硬體技術的迭代和深度學習技術的快速進展,科幻電影中出現的腦機介面設想會愈發趨近實現。
論文連結:https://www.nature.com/articles/s42256-024-00824-8。
GitHub連結:https://github.com/flinkerlab/neural_speech_decoding。
更多產生的語音範例:https://xc1490.github.io/nsd/。
以上が自然音声の脳波合成! LeCun は Nature サブジャーナルの新しい結果を転送し、コードはオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。