國慶日期間,抖音上「一句方言證明你是道地家鄉人」的活動在吸引了全國各地的網友熱情參與,話題最高登上抖音挑戰榜第一位,播放量已超過5000萬。
這場「各地方言大賞」能夠在網路上快速走紅,離不開抖音新推出的地方方言自動翻譯功能的功勞。創作者們在錄製家鄉話的短視頻時,使用了“自動字幕”功能,並選擇了“轉為普通話字幕”,這樣就能夠自動識別視頻中的方言語音,並將方言內容轉化為普通話字幕,讓其他地區的網友也能輕鬆聽懂各種「加密型國語」。福建的網友親自測試後表示,就連「十里不同音」的閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方語也能被準確翻譯,大呼“閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植水稻、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方語在抖音上為所欲為的日子一去不復返了”
#眾所周知,語音識別和機器翻譯的模型訓練需要大量的訓練數據,但方言作為口語流傳,可用於模型訓練的方言語料數據很少,那麼,為這項功能提供技術支持的火山引擎技術團隊是如何突破的呢?
方言辨識階段
一直以來,火山語音團隊都為時下風靡的視訊平台提供基於語音辨識技術的智慧視訊字幕解決方案,簡單來說就是可以自動將視訊中的語音和歌詞轉化成文字,來輔助視訊創作的功能。
在這個過程中,技術團隊發現,對於人工標註的有監督數據,傳統的有監督學習會產生嚴重依賴。特別是在大語種的持續優化和小語種的冷啟動方面。以中文國語和英文這樣的大語種為例,雖然視訊平台提供了豐富的業務場景語音數據,但是一旦有監督數據達到一定規模,繼續進行標註的回報將非常低。因此,技術人員必然需要思考如何有效利用百萬小時層級的無標註數據,來進一步改善大語種語音辨識的效果
相對小眾的語言或方言,由於資源、人力等原因,數據的標註成本高。在標註資料極少的情況下(10小時量級),有監督訓練的效果非常差,甚至可能無法正常收斂;而採購的資料往往和目標場景不匹配,無法滿足業務的需要。
對此,團隊採用了以下方案:
基於Wav2vec 2.0自監督學習技術,我們團隊提出了Efficient Wav2vec,以實現在極少標註資料條件下的方言ASR能力。為了解決Wav2vec2.0訓練速度慢、效果不穩定的問題,我們採取了兩個面向的改進措施。首先,我們使用filterbank特徵取代waveform,以降低運算量、縮短序列長度,並同時降低幀率,進而達到訓練效率翻倍。其次,我們透過等長資料流和自適應連續mask的方法,大幅改善了訓練的穩定性和效果
該實驗使用了5萬小時無標註語音和10小時標註語音,在為了保持原意不變,需要將內容改寫為粵語。 上進行。結果如下表所示,相較於Wav2vec 2.0,Efficient Wav2vec (w2v-e)在100M和300M參數量的模型下,CER相對下降了5%,同時訓練開銷減半
進一步,團隊使用自我監督預訓練模型微調得到的CTC模型作為種子模型,對無標註資料進行偽標籤打上,然後將其提供給一個參數較少的端到端LAS模型進行訓練。這樣做既實現了模型結構的遷移,又壓縮了推理計算量,可以直接在成熟的端到端推理引擎上部署和上線。這項技術已成功應用於兩個低資源方言,僅使用10小時的標註資料就實現了低於20%的字錯誤率
重寫後的內容:比較圖表:模型參數量與CER
#圖說:基於無監督訓練ASR的落點流程
在監督資料標註完成後,持續優化ASR模型成為重要的研究方向。在過去的一段時間裡,半監督或無監督學習一直非常熱門。無監督預訓練的主要想法是充分利用未標記的資料集來擴充已標記的資料集,以便在處理少量資料時取得較好的辨識效果。以下是演算法流程:
(1)首先,我們需要利用有監督資料進行手動標註,訓練出種子模型。然後,利用此模型對未標註的資料進行偽標籤標記
(2)在偽標籤產生過程中,由於種子模型對未標記資料的所有預測都不可能都是準確的,因此需要利用一些策略過率訓練價值低的資料。
(3)接下來,需要將產生的偽標籤與原始的標記資料結合起來,並在合併後的資料上進行聯合訓練
重寫後的內容: (4)由於在訓練過程中加入了大量的無監督數據,即使無監督數據的偽標籤質量不及有監督數據,但往往能夠得到比較通用的表徵。我們使用基於大數據訓練得到的預訓練模型,對人工精標的方言資料進行微調。這樣可以保留預訓練模型帶來的優秀泛化性能,同時提升模型對方言的辨識效果
######################## #平均字錯誤率需要進行重寫#########################為了保持原意不變,需要將內容改寫為粵語。 ########################閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方############ |
重寫內容為:北京 |
中原官話 |
需要重寫的內容是:西南官話 |
|||
單一方言 |
#要重新寫的內容是:35.3 |
|||||
需要進行改寫的內容是:100wh預訓練方言混合微調 |
17.21 |
13.14 |
#需要重寫的內容是:22.84 |
#要重寫的是:19.60 |
#19.50 # |
10.95 |
方言翻譯階段
在通常情況下,機器翻譯模型的訓練需要大量語料的支援。然而,方言通常以口語傳播,而現今方言使用者的數量逐年減少。這些現像都增加了方言語料資料收集的難度,從而使方言的機器翻譯效果難以提升
為了解決方言語料不足的問題,火山翻譯團隊提出多語言翻譯模型mRASP (multilingual Random Aligned Substitution Pre-training)和mRASP2,透過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統一的訓練框架之下,充分利用語料,來學習更好的語言無關表示,由此提升多語言翻譯性能。
論文網址:https://arxiv.org/abs/2105.09501
#加入對比學習任務的設計是基於一個經典的假設:不同語言中同義句的編碼後的表示應在高維度空間的相鄰位置。因為不同語言中的同義句對應的句意是相同的,也就是「編碼」過程的輸出是相同的。例如「早安」和「Good morning」這兩句話對於懂中文和英文的人來說,理解到的意思是一樣的,這也就對應了「編碼後的表示在高維度空間的相鄰位置」。
重新設計訓練目標
#mRASP2在傳統的交叉熵損失(cross entropy loss) 的基礎上,加入了對比損失(contrastive loss) ,以多任務形式進行訓練。圖中橘色的箭頭指示的是傳統使用交叉熵損失 (Cross Entropy Loss, CE loss) 訓練機器翻譯的部分;黑色的部分指示的是對比損失 (Contrastive Loss, CTR loss) 對應的部分。
字詞對齊資料增強方法又稱對齊增強(Aligned Augmentation, AA),是從mRASP的隨機對齊變換(Random Aligned Substitution, RAS)方法發展而來的。
重寫後的內容如下:根據圖示,圖(a)展示了對平行語料的增強過程,圖(b)展示了對單語語料的增強過程。在圖(a)中,原本的英語單字被替換為對應的中文單字;而在圖(b)中,原本的中文單字被替換為英文、法文、阿拉伯語和德文。 mRASP的RAS等同於第一種替換方式,只需要提供雙語同義詞詞典;而第二種替換方式則需要提供包含多種語言的同義詞詞典。值得一提的是,在使用對齊增強方法時,可以選擇只採用圖(a)的方法或只採用圖(b)的方法
實驗結果顯示mRASP2在有監督、無監督、零資源的場景下均取得翻譯效果的提升。其中有監督情境平均提升 1.98 BLEU,無監督情境平均提升 14.13 BLEU,零資源情境平均提升 10.26 BLEU。 此方法在廣泛場景下取得了明顯的效能提升,可以大幅緩解低資源語種訓練資料不足的問題。
寫在最後
方言和國語互相補充,都是中華傳統文化的重要表達方式。方言作為一種表達方式,代表著中國人對家鄉的情感和連結。透過短片和方言翻譯,可以幫助廣大用戶無障礙地欣賞來自全國各地不同區域的文化
當前,抖音「方言翻譯」功能現已支援為了保持原意不變,需要將內容改寫為粵語。 、閩語、吳語(重寫內容為:北京)、需要重寫的內容是:西南官話(四川)、中原官話(陝西、河南)等,據說未來還將支持更多方言,一起拭目以待吧。
以上是全抖音都在說家鄉話,兩項關鍵技術助你「聽懂」各地方言的詳細內容。更多資訊請關注PHP中文網其他相關文章!