目錄
#研究現狀
主要模型框架
研究結果
1. 具有時序因果性的語音解碼結果
2. 对左右大脑神经信号语音解码以及空间采样率的研究
3. 对于左右脑不同脑区对语音解码贡献度的研究
結論(啟發展望)
參考資料:
首頁 科技週邊 人工智慧 LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器

May 07, 2024 pm 06:07 PM
git ai 參數 語音

腦機介面(BCI)在科研和應用領域的發展近期獲得廣泛關注,大家通常對腦機介面的應用前景有著廣泛的獵奇。

由於神經系統的缺陷導致的失語症不僅嚴重阻礙患者的日常生活,還可能限制他們的職業發展和社交活動。隨著深度學習和腦機介面技術的快速發展,現代科學正向透過神經語音義肢來輔助失語者重新獲得溝通能力的方向邁進。

人類的大腦已經有了一系列令人興奮的進展,在解碼語音、操作等方面的訊號方面也有了很多突破。特別值得一提的是,馬斯克(Elon Musk)的Neuralink公司在這一領域也取得了突破性進展,他們的大腦介面技術具有破壞性的發展。

該公司成功地在一位試驗對象的大腦中植入了電極,實現了透過簡單的遊標操作來進行打字、遊戲等功能。這標誌著我們在朝著更高複雜度的神經-語音/動作解碼邁進的路上又邁出了一步。相較於其他腦機介面技術,神經-語音解碼的複雜性更高,其研發工作主要依賴特殊的資料來源-皮質電圖(ECoG)。

床上主要是照顧患者復原過程中接收的皮膚電圖資料。研究人員利用這些電極,在發聲時收集大腦活動的數據。這些數據不僅具有高度的時間空分辨率,並且已經在語音解碼研究中取得顯著成果,極大地推動了腦機介面技術的發展。透過這些先進技術的幫助,未來我們有望看到更多患有神經障礙的人重獲溝通的自由。

最近在《自然》雜誌上發表的一項研究取得了突破,研究中在一位植入設備的患者身上使用了量化的HuBERT特徵作為中間表徵,結合預先訓練的語音合成器將這些特徵轉化為語音,這種方法不僅提高了語音的自然度,也保持了高準確性。

然而,HuBERT特徵並不能捕捉到發音者的獨特聲學特徵,生成的聲音通常是統一的發音者聲音,因此仍需額外的模型來將這種通用聲音轉換為特定患者的聲音。

另一個值得注意的點是,該研究及大部分先前嘗試採用了非因果架構,這可能限制了其在需要因果操作的腦機介面應用中的實際使用。

2024年4月8日,紐約大學VideoLab和Flinker Lab聯合在《Nature Machine Intelligence》雜誌上發表了一項突破性研究。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器圖片

論文連結:https://www.nature.com/articles/s42256-024-00824-8

研究相關程式碼開源在https://github.com/flinkerlab/neural_speech_decoding

更多產生的語音範例在:https://xc1490.github.io/nsd/

這項名為「A neural speech decoding framework leveraging deep learning and speech synthesis」的研究,介紹了一個創新的可微分語音合成器。

此合成器結合了輕量級卷積神經網絡,能夠將語音編碼為一系列可解釋的語音參數,如音高、響度和共振峰頻率等,並利用可微分的技術重新合成語音。

此研究透過將神經訊號映射到這些特定的語音參數,成功建構了一個高度可解釋並適用於小資料集的神經語音解碼系統。這系統不僅能重構出高傳真且聽起來自然的語音,也為未來腦機介面應用的高準確性提供了實證基礎。

研究團隊共收集了48位受試者的數據,並在這一基礎上進行了語音解碼的嘗試,為高精度腦機介面技術的實際應用和發展打下了堅實的基礎。

圖靈獎得主Lecun也轉發了研究進展。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器圖片

#研究現狀

在當前神經訊號到語音解碼的研究中,面臨兩大核心挑戰。

首先是資料量的限制:為了訓練個人化的神經到語音解碼模型,通常每個病人的可用的資料時間總長僅約十分鐘,這對於依賴大量訓練資料的深度學習模型而言是一個顯著的限制因素。

其次,人類語音的高度多樣性也增加了建模的複雜度。即便同一人反覆發音拼讀同一個單詞,其語速、語調和音調等因素亦可能發生變化,從而為模型的構建增添了額外的難度。

#

在早期嘗試中,研究者主要採用線性模型來解碼神經訊號到語音。這類模型不需龐大的資料集支持,具備較強的可解釋性,但其準確率通常較低。

近期,隨著深度學習技術的進步,特別是卷積神經網路(CNN)和循環神經網路(RNN)的應用,研究者在模擬語音的中間潛在表徵和提升合成語音品質方面進行了廣泛嘗試。

例如,一些研究透過將大腦皮質活動解碼為口型運動,再轉化為語音,儘管這種方法在解碼性能上較為強大,重建的聲音卻往往聽起來不夠自然。

此外,一些新方法嘗試利用Wavenet聲碼器和生成對抗網路(GAN)來重建自然聽感的語音,雖然這些方法能夠改善聲音的自然度,但在準確度上仍有限制。

主要模型框架

在該研究中,研究團隊展示了一種創新的從腦電(ECoG)訊號到語音的解碼框架。他們建立了一個低維度的潛在表示空間,該空間透過一個輕量級的語音編解碼模型,僅使用語音訊號來產生。

這個框架包含兩個核心部分:首先是ECoG解碼器,它負責將ECoG訊號轉換為一系列可理解的聲學語音參數,如音高、是否發聲、響度及共振峰頻率等;其次為語音合成器部分,負責將這些參數轉換為頻譜圖。

透過建構一個可微分的語音合成器,研究人員實現了在訓練ECoG解碼器的同時,也對語音合成器進行最佳化,共同減少頻譜圖重建的誤差。這種低維度潛在空間的可解釋性強,結合輕量級的預訓練語音編碼器產生的參考語音參數,使得整個神經語音解碼框架高效且適應性強,有效解決了該領域中數據稀缺的問題。

此外,這個框架不僅能產生與說話者非常接近的自然語音,而且在ECoG解碼器部分支援插入多種深度學習模型架構,並能進行因果操作。

研究團隊處理了48名神經外科病人的ECoG數據,並使用了多種深度學習架構(包括卷積、循環神經網路和Transformer)來實現ECoG解碼。

這些模型在實驗中都顯示了高準確度,尤其是採用ResNet卷積架構的表現最為出色。該研究框架不僅透過因果操作和相對較低的採樣率(10mm間隔)實現了高準確度,還展示了能從大腦的左右半球都有效進行語音解碼的能力,從而將神經語音解碼的應用範圍擴展到了右腦。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器圖片

#本研究的核心創新之一是發展了一種可微分的語音合成器,這大大提高了語音重合成的效率,並能合成接近原聲的高保真音訊。

這種語音合成器的設計靈感來自人類的發聲系統,將語音細分為兩個部分:Voice(主要用於元音的模擬)和Unvoice(主要用於輔音的模擬)。

在Voice部分,首先使用基頻訊號產生諧波,然後透過F1至F6共振峰構成的濾波器,以獲得元音的頻譜特徵。

對於Unvoice部分,透過對白雜訊進行特定濾波,產生對應的頻譜。一個可學習的參數控制這兩部分在每個時間點的混合比例。

最後,透過調整響度訊號和添加背景噪聲,產生最終的語音頻譜。

基於這種語音合成器,研究團隊設計了一個高效的語音重合成框架及神經-語音解碼框架。詳細的框架結構可以參考原文的圖6。

研究結果

1. 具有時序因果性的語音解碼結果

在此項研究中,研究者首先對不同的模型架構進行了直接比較,包括卷積網路(ResNet)、循環神經網路(LSTM)和Transformer架構(3D Swin),以評估它們在語音解碼性能上的差異。

值得注意的是,這些模型都能執行時間序列上的非因果或因果運算。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器圖片

#在大腦-電腦介面(BCI)的應用中,解碼模型的因果性具有重要意義:因果模型只利用過去和目前的神經訊號來產生語音,而非因果模型還會參考未來的神經訊號,這在實際操作上是不可行的。

#

因此,研究的重点在于比较同一模型在执行因果和非因果操作时的性能表现。结果显示,即使是因果版本的ResNet模型,其性能也能与非因果版本相媲美,二者之间没有显著的性能差异。

类似地,Swin模型的因果和非因果版本性能相近,但LSTM的因果版本在性能上显著低于其非因果版本。研究还展示了几个关键的语音参数的平均解码准确率(总样本数为48),包括声音权重(区分元音和辅音的参数)、响度、基频f0、第一共振峰f1和第二共振峰f2。

准确地重建这些语音参数,特别是基频、声音权重和前两个共振峰,对于实现精确的语音解码和自然地重现参与者声音至关重要。

研究结果表明,无论是非因果还是因果模型,都能提供合理的解码效果,这为未来的相关研究和应用提供了积极的启示。

2. 对左右大脑神经信号语音解码以及空间采样率的研究

研究者在最新的研究中进一步探索了左右大脑半球在语音解码上的性能差异。

传统上,大多数研究主要集中在与语音和语言功能密切相关的左脑半球。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器图片

然而,关于右脑半球在语言信息解码方面的能力,我们了解的还很有限。为了探索这一领域,研究团队比较了参与者左右脑半球的解码性能,验证了使用右脑半球进行语音恢复的可行性。

在研究中收集的48位受试者中,16位的ECoG信号来自右脑。研究者通过比较使用ResNet和Swin解码器的性能,发现右脑半球同样能够有效地进行语音解码,其效果与左脑半球相近。这一发现为那些左脑受损且失去语言功能的患者提供了一种可能的语言恢复方案。

研究还涉及到了电极采样密度对语音解码效果的影响。以往的研究多使用较高密度的电极网格(0.4 mm),而在临床实践中常用的电极网格密度则较低(1 cm)。

本研究中有五位参与者使用了混合类型(HB)的电极网格,这类网格主要是低密度,但添加了一些额外的电极。其余四十三位参与者均使用了低密度采样。

结果显示,这些混合采样(HB)的解码表现与传统的低密度采样(LD)相近,表明模型能够有效地从不同密度的大脑皮层电极网格中学习语音信息。这一发现暗示了在临床常用的电极采样密度可能已足够支持未来的脑机接口应用。

3. 对于左右脑不同脑区对语音解码贡献度的研究

研究者还探讨了大脑中与语音相关区域在语音解码过程中的作用,这一点对于将来可能在左右脑半球植入语音恢复设备具有重要意义。为了评估不同大脑区域对语音解码的影响,研究团队采用了遮挡技术(occlusion analysis)。

通过对ResNet和Swin解码器的因果与非因果模型进行比较,研究发现,在非因果模型中,听觉皮层的作用更加显著。这一结果强调了在实时语音解码应用中使用因果模型的必要性,因为实时应用无法依赖未来的神经反馈信号。

LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器图片

此外,研究也顯示,無論在大腦的左半球或右半球,感測運動皮質特別是腹部區域對語音解碼的貢獻度都相似。這項發現表明,在右半球植入神經義肢來恢復語音可能是個可行的方案,提供了對未來治療策略的重要見解。

結論(啟發展望)

研究團隊開發了一種新型的可微分語音合成器,這合成器使用輕型捲積神經網路將語音編碼為一系列可解釋的參數,如音高、響度和共振峰頻率等,並利用相同可微分合成器對語音進行重新合成。

透過將神經訊號映射到這些參數上,研究者們建構了一個高度可解釋並適用於小資料集的神經語音解碼系統,能夠產生自然聽感的語音。

此系統在48名參與者中表現出高度的可複現性,能夠處理不同空間採樣密度的數據,並能同時處理左、右腦半球的腦電訊號,展示了其在語音解碼方面的強大潛力。

儘管取得了顯著進展,研究者也指出了模型當前的一些局限性,如解碼過程依賴於與ECoG記錄配對的語音訓練數據,這對於失語症患者可能不適用。

未來,研究團隊希望建立能夠處理非網格資料的模型架構,並更有效地利用多病人、多模態的腦電資料。隨著硬體技術的持續進步和深度學習技術的快速發展,腦機介面領域的研究仍處於早期階段,但隨著時間的推移,科幻電影中的腦機介面設想將逐步成為現實。

參考資料:

https://www.nature.com/articles/s42256-024-00824-8

#本文第一作者:Xupeng Chen (xc1490@nyu.edu), Ran Wang,通訊作者:Adeen Flinker

更多關於神經語音解碼中的因果性討論,可以參考作者們的另一篇論文:

https://www.pnas.org/doi/10.1073/pnas.2300255120

以上是LeCun轉發,AI讓失語者重新說話!紐約大學發布全新「神經-語音」解碼器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1268
29
C# 教程
1248
24
如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

See all articles