多篇論文入選Interspeech 2023,火山語音有效解決多類實務問題
日前,火山語音團隊多篇論文入選Interspeech 2023,內容涵蓋短視訊語音辨識、跨語言音色與風格以及口語流利度評估等多個應用方向的創新突破。 Interspeech作為國際語音通訊協會ISCA組織的語音研究領域的頂級會議之一,也被稱為全球最大的綜合性語音訊號處理盛會,受到全球語言領域人士的廣泛關注。
Interspeech2023#活動現場
基於隨機語句串聯的資料增強改進短視訊語音辨識(Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition)
#一般來說,端對端自動語音辨識(ASR)框架的限制之一,就是如果訓練和測試語句的長度不匹配,其表現可能會受到影響。在該論文中,火山語音團隊提出了一種基於即時隨機語句串聯(RUC)的資料增強方法作為前端資料增強,以減輕短視訊ASR任務中訓練和測試語句長度不匹配的問題。
具體來說,團隊發現以下觀察對創新實踐起到了主要作用:通常情況下,短視頻自發語音的訓練語句比人工轉錄的語句要短得多(平均約3秒),而從語音活動偵測前端產生的測試語句要長得多(平均約10秒)。因此,這種不匹配可能會導致表現不佳
火山語音團隊表示,為了進行實證,我們使用了來自15種語言的多類ASR模型。這些語言的資料集範圍從1,000小時到30,000小時不等。在模型微調階段,我們也即時加入了採樣多個資料後並拼接的資料。相較於沒有增強的數據,這種方法在所有語言上平均達到了5.72%的相對詞錯誤率降低
測試集上長句的WER 通過RUC 訓練後顯著下降(藍色vs. 紅色)
根據實驗觀察,RUC方法明顯改善了長句的辨識能力,而短句的表現則沒有下降。進一步分析發現,所提出的資料增強方法可以減少ASR模型對長度歸一化變化的敏感性,這可能意味著ASR模型在多元環境下更具穩健性。綜上所述,RUC資料增強方法雖然操作簡單,但效果顯著
基於語音和韻律自監督方法的流利度打分數(Phonetic and Prosody-aware Self- supervised Learning Approach for Non-native Fluency Scoring)
評估二語學習者語言能力的重要維度之一是口語的流利程度。流利的發音主要表現在說話時沒有太多停頓、猶豫或自我糾正等異常現象,而是能夠輕鬆、正常地發出語音。相較於母語者,大多數二語學習者通常會說得較慢,並且會更頻繁地停頓。為了評估口語流利度,火山語音團隊提出了一種基於語音和韻律相關的自監督建模方法
具體來說,在預訓練階段,需要對模型的輸入序列特徵(聲學特徵、音素id、音素時長)進行掩碼,將掩碼後的特徵送入模型,利用上下文相關的編碼器根據時序信息來還原掩碼部分的音素id和音素時長信息,從而模型具有更強大的語音和韻律表徵能力。 該方案將序列建模框架中原始時長、音素和聲學資訊這三種特徵進行掩碼重構,讓機器自動去學習上下文的語音和時長表徵,更好用於流利度打分。
這種基於語音和韻律的自監督學習方法超過了領域內其他方法,在內部測試集上機器預測結果和人類專家評分之間相關性達到了0.833,與專家和專家之間的相關性 0.831持平。在開源資料集上,機器預測結果和人類專家評分之間相關性達到了0.835,效能超越過去在該任務上提出的一些自監督方法。 應用場景方面,該方法可應用於有流利度自動評估的需求場景中,例如口語考試以及各種線上口語練習等。
解耦非母語語音在發音評估中的貢獻(Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment)
#非母語發音評估的一個基本思想是量化學習者發音與母語者發音的偏差,因此早期用於發音評測的聲學模型通常僅使用目的語的數據進行訓練,但最近的一些研究開始將非母語語音資料納入模型訓練。將非母語語音納入二語ASR 與非母語評估或發音錯誤檢測中的目的存在根本區別:前者的目標是盡可能使模型適應非母語數據以達到最優 ASR 性能;後者則需要平衡兩個看似相悖的需求,即在非母語語音的較高識別精度以及對非母語發音的發音水平實現客觀的評估。
火山語音團隊旨在從兩個不同的角度,即對齊精確度和評估表現,研究非母語語音在發音評估中的貢獻。為此,他們設計了不同的資料組合和訓練聲學模型時的文本轉錄形式,如上圖所示
上述兩個表格分別展現了不同組合的聲學模型在對齊精度和評估中的表現。實驗結果表明,在聲學模型訓練期間僅使用帶有人工標註的音素序列的非母語數據,可以實現非母語語音的對齊以及發音評估的最高準確度。具體來說,在訓練中將一半母語資料和一半非母語資料(人工標註的音素序列)混合可能會稍差,但可以媲美僅使用非母語資料與人工標註的音素序列。
此外,在對母語資料進行發音評估時,上述混合情況表現更為出色。在資源有限的情況下,與僅使用母語資料進行聲學模型訓練相比,無論使用哪種文字轉錄類型,添加10小時的非母語資料都能顯著提高對齊準確性和評估表現。這項研究對於語音評估領域的數據應用具有重要的指導意義
在端對端語音識別透過非尖峰的CTC##優化幀分類器解決時間戳問題(Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition)
自動語音辨識(ASR)領域的端到端系統已經展示出與混合系統相媲美的性能。作為ASR的附帶產物,時間戳在許多應用中都是至關重要的,特別在字幕生成和計算輔助發音訓練等場景,本論文旨在優化端到端系統中的幀級分類器來獲取時間戳。對此團隊引入使用CTC(connectionist temporal classification)損失來訓練幀級分類器,並且引入標籤先驗的資訊使得CTC的尖峰現像有所緩解,也將梅爾濾波器與ASR編碼器的輸出結合,作為輸入特徵。 在內部的中文實驗上,該方法在單字時間戳200ms準確性上達到了95.68%/94.18%,而傳統混合系統僅為93.0%/90.22%。此外,相對於先前的端到端方法,團隊在內部的7種語言上取得了4.80%/8.02%的絕對效能提升。透過逐幀的知識蒸餾方法,也進一步提高了單字定時的準確性,儘管此實驗僅針對LibriSpeech進行。 這項研究結果表明,端對端語音辨識系統中的時間戳記性能可以透過引入標籤先驗和融合不同級別的特徵進行有效優化。在內部中文實驗上,此方法相較於混合系統和先前的端到端方法,都取得了顯著的改進;此外對於多種語言,方法也展現出了明顯的優勢;透過知識蒸餾方法的應用進一步提高了單字定時的準確性。這些結果不僅對字幕產生和發音訓練等應用具有重要意義,也為自動語音辨識技術的發展提供了有益的探索方向。基於語種區分聲學邊界學習的中英混語音辨識(Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition #)
重寫後的內容:眾所周知,程式碼切換(CS)的主要目標是促進不同語言或技術領域之間的有效交流。 CS需要在一個句子中交替使用兩種或多種語言,然而,合併來自多種語言的單字或短語可能會導致語音識別的錯誤和混淆,這使得代碼切換語音識別(CSSR)成為一項更具挑戰性的任務通常的端對端ASR模型由編碼器、解碼器和對齊機制組成。現有的端到端CSASR模型大多只專注於優化編碼器和解碼器結構,很少討論是否需要對對齊機制進行語種相關的設計。大部分已有的工作都是針對中英混合場景使用普通話字元和英語子詞的混合作為建模單元。普通話字符通常表示普通話中的單個音節,並且具有清晰的聲學邊界;而英文子詞是在不參考任何聲學知識的情況下獲得的,因此它們的聲學邊界可能是模糊的。為了在CSASR系統中獲得普通話和英語的良好聲學邊界(對齊),進行語言相關的聲學邊界學習是非常必要的。因此,我們在CIF模型的基礎上進行了改進,提出了一種語種區分的聲學邊界學習方法,用於CSASR任務。模型架構的詳細資訊請見下圖
模型由六個元件組成,分別是編碼器、語種區分的權重估計器(LSWE)、CIF模組、自回歸(AR)解碼器、非自回歸(NAR)解碼器和語種變化檢測(LCD)模組。編碼器和自回歸解碼器以及CIF的計算過程與原始的CIF-based的ASR方法無異,語種區分的權重估計器負責完成語種獨立的聲學邊界的建模,非自回歸(NAR)解碼器和語種變化檢測(LCD)模組都是設計來輔助模型的訓練,在解碼階段不再保留
實驗結果顯示,該方法在開源中英混資料集SEAME的兩個測試集和
上獲得了新的SOTA效果,分別是16.29%和22.81%的MER。為了進一步驗證方法在更大數據量中的效果,團隊在9000小時的內部數據集上進行了實驗,最終也是獲得了相對7.9%的MER收益。據了解,本論文也是第一篇在CSASR任務中進行語種區分的聲學邊界學習的工作內容。
USTR:基於統一的表徵和純文字進行 ASR 領域適應(##Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer)
眾所周知,領域遷移一直是ASR中十分重要的任務,但在目標領域獲取成對的語音資料非常耗時且成本很高,因此其中許多工作都是利用目標領域相關文字資料來提升辨識效果。在傳統方法中,TTS 會增加訓練的週期和相關資料的儲存成本,ILME和Shallow fusion等方法會增加推理時的複雜度。 基於此任務,團隊在 RNN-T的基礎上,將Encoder拆分成Audio Encoder和Shared Encoder,同時引入Text Encoder用於學習和語音訊號類似的表徵;語音和文字的表徵則透過Shared Encoder,使用RNN-T loss進行訓練,稱為 USTR(Unified Speech-Text Representation)。 「對於Text Encoder這部分,我們探討了不同類型的表徵形式,包括Character序列,Phone序列和Sub-word 序列,最終結果顯示Phone序列的效果最好。對於訓練方式,本文探討了基於給定RNN- T模型的Multi-step訓練方式和完全隨機初始化的Single-step訓練方式。」基於知識蒸餾的高效內部語言模型估計方法 (Knowledge Distillation Approach for Efficient Internal Language Model Estimation)
儘管內部語言模型估計(ILME)已經證明其在端對端ASR語言模型融合中的有效性,但是與傳統的Shallow fusion相比,ILME額外引入了內部語言模型的計算,增加了推理成本。為了估計內部語言模型,需要基於ASR解碼器上做一次額外的前向計算,或者基於密度比率(Density Ratio)方法,用ASR訓練集文本訓練一個獨立的語言模型(DR-LM),作為內部語言模型的近似。基於ASR解碼器的ILME方法,由於直接利用ASR參數進行估計,通常可以取得優於密度比率方法的性能,但其計算量取決於ASR解碼器的參數量;密度比率方法的優勢則在於可以透過控制DR-LM的大小實現高效的內部語言模型估計。
為此火山語音團隊提出在密度比率方法的框架下,以基於ASR解碼器的ILME方法作為教師,蒸餾學習DR-LM,從而在保持ILME性能的同時,大幅降低ILME的計算成本。
實驗結果顯示,這種方法可以減少95%的內部語言模型參數,並且在效能上與基於ASR解碼器的ILME方法相當。當採用表現較好的ILME方法作為教師時,對應的學生模型也能夠達到更好的效果。與計算量相當的傳統密度比率方法相比,在高資源場景下,這種方法的性能稍優,在低資源跨領域遷移場景下,CER收益可達8%,並且對於融合權重更加魯棒
GenerTTS:跨語言語音合成中音色和風格與發音解耦和泛化(GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross- Lingual Text-to-Speech)
跨語言音色和風格可泛化的語音合成(TTS)旨在合成具有特定參考音色或風格的語音,該音色或風格並未在目標語言中進行過訓練。它面臨著這樣的挑戰,例如音色和發音之間難以分離,因為通常很難獲取特定說話者的多語言語音數據;風格和發音混合在一起,因為語音風格包含語言無關和語言相關兩部分。
為了回應這些挑戰,火山語音團隊提出了GenerTTS。他們仔細設計了基於HuBERT的資訊瓶頸,以解除音色和發音/風格之間的連結。同時,他們也透過最小化風格和語言之間的互資訊來消除風格中的語言特定資訊
實驗證明, GenerTTS在風格相似性和發音準確性方面優於基準系統,並實現了跨語言音色和風格的可泛化性。
一直以來,火山語音團隊面向位元組跳動內部各業務線,提供優質的語音AI技術能力以及全端語音產品解決方案,並透過火山引擎對外提供服務。自 2017 年成立以來,團隊專注研發業界領先的 AI 智慧語音技術,不斷探索AI 與業務場景的高效結合,以實現更大的使用者價值。
以上是多篇論文入選Interspeech 2023,火山語音有效解決多類實務問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此
