腦機介面(BCI)在科研和應用領域的發展近期獲得廣泛關注,大家通常對腦機介面的應用前景有著廣泛的獵奇。
由於神經系統的缺陷導致的失語症不僅嚴重阻礙患者的日常生活,還可能限制他們的職業發展和社交活動。隨著深度學習和腦機介面技術的快速發展,現代科學正向透過神經語音義肢來輔助失語者重新獲得溝通能力的方向邁進。
人類的大腦已經有了一系列令人興奮的進展,在解碼語音、操作等方面的訊號方面也有了很多突破。特別值得一提的是,馬斯克(Elon Musk)的Neuralink公司在這一領域也取得了突破性進展,他們的大腦介面技術具有破壞性的發展。
該公司成功地在一位試驗對象的大腦中植入了電極,實現了透過簡單的遊標操作來進行打字、遊戲等功能。這標誌著我們在朝著更高複雜度的神經-語音/動作解碼邁進的路上又邁出了一步。相較於其他腦機介面技術,神經-語音解碼的複雜性更高,其研發工作主要依賴特殊的資料來源-皮質電圖(ECoG)。
床上主要是照顧患者復原過程中接收的皮膚電圖資料。研究人員利用這些電極,在發聲時收集大腦活動的數據。這些數據不僅具有高度的時間空分辨率,並且已經在語音解碼研究中取得顯著成果,極大地推動了腦機介面技術的發展。透過這些先進技術的幫助,未來我們有望看到更多患有神經障礙的人重獲溝通的自由。
最近在《自然》雜誌上發表的一項研究取得了突破,研究中在一位植入設備的患者身上使用了量化的HuBERT特徵作為中間表徵,結合預先訓練的語音合成器將這些特徵轉化為語音,這種方法不僅提高了語音的自然度,也保持了高準確性。
然而,HuBERT特徵並不能捕捉到發音者的獨特聲學特徵,生成的聲音通常是統一的發音者聲音,因此仍需額外的模型來將這種通用聲音轉換為特定患者的聲音。
另一個值得注意的點是,該研究及大部分先前嘗試採用了非因果架構,這可能限制了其在需要因果操作的腦機介面應用中的實際使用。
2024年4月8日,紐約大學VideoLab和Flinker Lab聯合在《Nature Machine Intelligence》雜誌上發表了一項突破性研究。
圖片
論文連結:https://www.nature.com/articles/s42256-024-00824-8
研究相關程式碼開源在https://github.com/flinkerlab/neural_speech_decoding
更多產生的語音範例在:https://xc1490.github.io/nsd/
這項名為「A neural speech decoding framework leveraging deep learning and speech synthesis」的研究,介紹了一個創新的可微分語音合成器。
此合成器結合了輕量級卷積神經網絡,能夠將語音編碼為一系列可解釋的語音參數,如音高、響度和共振峰頻率等,並利用可微分的技術重新合成語音。
此研究透過將神經訊號映射到這些特定的語音參數,成功建構了一個高度可解釋並適用於小資料集的神經語音解碼系統。這系統不僅能重構出高傳真且聽起來自然的語音,也為未來腦機介面應用的高準確性提供了實證基礎。
研究團隊共收集了48位受試者的數據,並在這一基礎上進行了語音解碼的嘗試,為高精度腦機介面技術的實際應用和發展打下了堅實的基礎。
圖靈獎得主Lecun也轉發了研究進展。
圖片
在當前神經訊號到語音解碼的研究中,面臨兩大核心挑戰。
首先是資料量的限制:為了訓練個人化的神經到語音解碼模型,通常每個病人的可用的資料時間總長僅約十分鐘,這對於依賴大量訓練資料的深度學習模型而言是一個顯著的限制因素。
其次,人類語音的高度多樣性也增加了建模的複雜度。即便同一人反覆發音拼讀同一個單詞,其語速、語調和音調等因素亦可能發生變化,從而為模型的構建增添了額外的難度。
#在早期嘗試中,研究者主要採用線性模型來解碼神經訊號到語音。這類模型不需龐大的資料集支持,具備較強的可解釋性,但其準確率通常較低。
近期,隨著深度學習技術的進步,特別是卷積神經網路(CNN)和循環神經網路(RNN)的應用,研究者在模擬語音的中間潛在表徵和提升合成語音品質方面進行了廣泛嘗試。
例如,一些研究透過將大腦皮質活動解碼為口型運動,再轉化為語音,儘管這種方法在解碼性能上較為強大,重建的聲音卻往往聽起來不夠自然。
此外,一些新方法嘗試利用Wavenet聲碼器和生成對抗網路(GAN)來重建自然聽感的語音,雖然這些方法能夠改善聲音的自然度,但在準確度上仍有限制。
在該研究中,研究團隊展示了一種創新的從腦電(ECoG)訊號到語音的解碼框架。他們建立了一個低維度的潛在表示空間,該空間透過一個輕量級的語音編解碼模型,僅使用語音訊號來產生。
這個框架包含兩個核心部分:首先是ECoG解碼器,它負責將ECoG訊號轉換為一系列可理解的聲學語音參數,如音高、是否發聲、響度及共振峰頻率等;其次為語音合成器部分,負責將這些參數轉換為頻譜圖。
透過建構一個可微分的語音合成器,研究人員實現了在訓練ECoG解碼器的同時,也對語音合成器進行最佳化,共同減少頻譜圖重建的誤差。這種低維度潛在空間的可解釋性強,結合輕量級的預訓練語音編碼器產生的參考語音參數,使得整個神經語音解碼框架高效且適應性強,有效解決了該領域中數據稀缺的問題。
此外,這個框架不僅能產生與說話者非常接近的自然語音,而且在ECoG解碼器部分支援插入多種深度學習模型架構,並能進行因果操作。
研究團隊處理了48名神經外科病人的ECoG數據,並使用了多種深度學習架構(包括卷積、循環神經網路和Transformer)來實現ECoG解碼。
這些模型在實驗中都顯示了高準確度,尤其是採用ResNet卷積架構的表現最為出色。該研究框架不僅透過因果操作和相對較低的採樣率(10mm間隔)實現了高準確度,還展示了能從大腦的左右半球都有效進行語音解碼的能力,從而將神經語音解碼的應用範圍擴展到了右腦。
圖片
#本研究的核心創新之一是發展了一種可微分的語音合成器,這大大提高了語音重合成的效率,並能合成接近原聲的高保真音訊。
這種語音合成器的設計靈感來自人類的發聲系統,將語音細分為兩個部分:Voice(主要用於元音的模擬)和Unvoice(主要用於輔音的模擬)。
在Voice部分,首先使用基頻訊號產生諧波,然後透過F1至F6共振峰構成的濾波器,以獲得元音的頻譜特徵。
對於Unvoice部分,透過對白雜訊進行特定濾波,產生對應的頻譜。一個可學習的參數控制這兩部分在每個時間點的混合比例。
最後,透過調整響度訊號和添加背景噪聲,產生最終的語音頻譜。
基於這種語音合成器,研究團隊設計了一個高效的語音重合成框架及神經-語音解碼框架。詳細的框架結構可以參考原文的圖6。
在此項研究中,研究者首先對不同的模型架構進行了直接比較,包括卷積網路(ResNet)、循環神經網路(LSTM)和Transformer架構(3D Swin),以評估它們在語音解碼性能上的差異。
值得注意的是,這些模型都能執行時間序列上的非因果或因果運算。
圖片
#在大腦-電腦介面(BCI)的應用中,解碼模型的因果性具有重要意義:因果模型只利用過去和目前的神經訊號來產生語音,而非因果模型還會參考未來的神經訊號,這在實際操作上是不可行的。
#因此,研究的重点在于比较同一模型在执行因果和非因果操作时的性能表现。结果显示,即使是因果版本的ResNet模型,其性能也能与非因果版本相媲美,二者之间没有显著的性能差异。
类似地,Swin模型的因果和非因果版本性能相近,但LSTM的因果版本在性能上显著低于其非因果版本。研究还展示了几个关键的语音参数的平均解码准确率(总样本数为48),包括声音权重(区分元音和辅音的参数)、响度、基频f0、第一共振峰f1和第二共振峰f2。
准确地重建这些语音参数,特别是基频、声音权重和前两个共振峰,对于实现精确的语音解码和自然地重现参与者声音至关重要。
研究结果表明,无论是非因果还是因果模型,都能提供合理的解码效果,这为未来的相关研究和应用提供了积极的启示。
研究者在最新的研究中进一步探索了左右大脑半球在语音解码上的性能差异。
传统上,大多数研究主要集中在与语音和语言功能密切相关的左脑半球。
图片
然而,关于右脑半球在语言信息解码方面的能力,我们了解的还很有限。为了探索这一领域,研究团队比较了参与者左右脑半球的解码性能,验证了使用右脑半球进行语音恢复的可行性。
在研究中收集的48位受试者中,16位的ECoG信号来自右脑。研究者通过比较使用ResNet和Swin解码器的性能,发现右脑半球同样能够有效地进行语音解码,其效果与左脑半球相近。这一发现为那些左脑受损且失去语言功能的患者提供了一种可能的语言恢复方案。
研究还涉及到了电极采样密度对语音解码效果的影响。以往的研究多使用较高密度的电极网格(0.4 mm),而在临床实践中常用的电极网格密度则较低(1 cm)。
本研究中有五位参与者使用了混合类型(HB)的电极网格,这类网格主要是低密度,但添加了一些额外的电极。其余四十三位参与者均使用了低密度采样。
结果显示,这些混合采样(HB)的解码表现与传统的低密度采样(LD)相近,表明模型能够有效地从不同密度的大脑皮层电极网格中学习语音信息。这一发现暗示了在临床常用的电极采样密度可能已足够支持未来的脑机接口应用。
研究者还探讨了大脑中与语音相关区域在语音解码过程中的作用,这一点对于将来可能在左右脑半球植入语音恢复设备具有重要意义。为了评估不同大脑区域对语音解码的影响,研究团队采用了遮挡技术(occlusion analysis)。
通过对ResNet和Swin解码器的因果与非因果模型进行比较,研究发现,在非因果模型中,听觉皮层的作用更加显著。这一结果强调了在实时语音解码应用中使用因果模型的必要性,因为实时应用无法依赖未来的神经反馈信号。
图片
此外,研究也顯示,無論在大腦的左半球或右半球,感測運動皮質特別是腹部區域對語音解碼的貢獻度都相似。這項發現表明,在右半球植入神經義肢來恢復語音可能是個可行的方案,提供了對未來治療策略的重要見解。
研究團隊開發了一種新型的可微分語音合成器,這合成器使用輕型捲積神經網路將語音編碼為一系列可解釋的參數,如音高、響度和共振峰頻率等,並利用相同可微分合成器對語音進行重新合成。
透過將神經訊號映射到這些參數上,研究者們建構了一個高度可解釋並適用於小資料集的神經語音解碼系統,能夠產生自然聽感的語音。
此系統在48名參與者中表現出高度的可複現性,能夠處理不同空間採樣密度的數據,並能同時處理左、右腦半球的腦電訊號,展示了其在語音解碼方面的強大潛力。
儘管取得了顯著進展,研究者也指出了模型當前的一些局限性,如解碼過程依賴於與ECoG記錄配對的語音訓練數據,這對於失語症患者可能不適用。
未來,研究團隊希望建立能夠處理非網格資料的模型架構,並更有效地利用多病人、多模態的腦電資料。隨著硬體技術的持續進步和深度學習技術的快速發展,腦機介面領域的研究仍處於早期階段,但隨著時間的推移,科幻電影中的腦機介面設想將逐步成為現實。
https://www.nature.com/articles/s42256-024-00824-8
#本文第一作者:Xupeng Chen (xc1490@nyu.edu), Ran Wang,通訊作者:Adeen Flinker
更多關於神經語音解碼中的因果性討論,可以參考作者們的另一篇論文:
https://www.pnas.org/doi/10.1073/pnas.2300255120
以上是LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器的詳細內容。更多資訊請關注PHP中文網其他相關文章!