全抖音都在說家鄉話,兩項關鍵技術助你「聽懂」各地方言
國慶日期間,抖音上「一句方言證明你是道地家鄉人」的活動在吸引了全國各地的網友熱情參與,話題最高登上抖音挑戰榜第一位,播放量已超過5000萬。
這場「各地方言大賞」能夠在網路上快速走紅,離不開抖音新推出的地方方言自動翻譯功能的功勞。創作者們在錄製家鄉話的短視頻時,使用了“自動字幕”功能,並選擇了“轉為普通話字幕”,這樣就能夠自動識別視頻中的方言語音,並將方言內容轉化為普通話字幕,讓其他地區的網友也能輕鬆聽懂各種「加密型國語」。福建的網友親自測試後表示,就連「十里不同音」的閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方語也能被準確翻譯,大呼“閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植水稻、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方語在抖音上為所欲為的日子一去不復返了”
#眾所周知,語音識別和機器翻譯的模型訓練需要大量的訓練數據,但方言作為口語流傳,可用於模型訓練的方言語料數據很少,那麼,為這項功能提供技術支持的火山引擎技術團隊是如何突破的呢?
方言辨識階段
一直以來,火山語音團隊都為時下風靡的視訊平台提供基於語音辨識技術的智慧視訊字幕解決方案,簡單來說就是可以自動將視訊中的語音和歌詞轉化成文字,來輔助視訊創作的功能。
在這個過程中,技術團隊發現,對於人工標註的有監督數據,傳統的有監督學習會產生嚴重依賴。特別是在大語種的持續優化和小語種的冷啟動方面。以中文國語和英文這樣的大語種為例,雖然視訊平台提供了豐富的業務場景語音數據,但是一旦有監督數據達到一定規模,繼續進行標註的回報將非常低。因此,技術人員必然需要思考如何有效利用百萬小時層級的無標註數據,來進一步改善大語種語音辨識的效果
相對小眾的語言或方言,由於資源、人力等原因,數據的標註成本高。在標註資料極少的情況下(10小時量級),有監督訓練的效果非常差,甚至可能無法正常收斂;而採購的資料往往和目標場景不匹配,無法滿足業務的需要。
對此,團隊採用了以下方案:
基於Wav2vec 2.0自監督學習技術,我們團隊提出了Efficient Wav2vec,以實現在極少標註資料條件下的方言ASR能力。為了解決Wav2vec2.0訓練速度慢、效果不穩定的問題,我們採取了兩個面向的改進措施。首先,我們使用filterbank特徵取代waveform,以降低運算量、縮短序列長度,並同時降低幀率,進而達到訓練效率翻倍。其次,我們透過等長資料流和自適應連續mask的方法,大幅改善了訓練的穩定性和效果
該實驗使用了5萬小時無標註語音和10小時標註語音,在為了保持原意不變,需要將內容改寫為粵語。 上進行。結果如下表所示,相較於Wav2vec 2.0,Efficient Wav2vec (w2v-e)在100M和300M參數量的模型下,CER相對下降了5%,同時訓練開銷減半
進一步,團隊使用自我監督預訓練模型微調得到的CTC模型作為種子模型,對無標註資料進行偽標籤打上,然後將其提供給一個參數較少的端到端LAS模型進行訓練。這樣做既實現了模型結構的遷移,又壓縮了推理計算量,可以直接在成熟的端到端推理引擎上部署和上線。這項技術已成功應用於兩個低資源方言,僅使用10小時的標註資料就實現了低於20%的字錯誤率
重寫後的內容:比較圖表:模型參數量與CER
#圖說:基於無監督訓練ASR的落點流程
- #方言大規模pretrain finetune訓練模式
在監督資料標註完成後,持續優化ASR模型成為重要的研究方向。在過去的一段時間裡,半監督或無監督學習一直非常熱門。無監督預訓練的主要想法是充分利用未標記的資料集來擴充已標記的資料集,以便在處理少量資料時取得較好的辨識效果。以下是演算法流程:
(1)首先,我們需要利用有監督資料進行手動標註,訓練出種子模型。然後,利用此模型對未標註的資料進行偽標籤標記
(2)在偽標籤產生過程中,由於種子模型對未標記資料的所有預測都不可能都是準確的,因此需要利用一些策略過率訓練價值低的資料。
(3)接下來,需要將產生的偽標籤與原始的標記資料結合起來,並在合併後的資料上進行聯合訓練
重寫後的內容: (4)由於在訓練過程中加入了大量的無監督數據,即使無監督數據的偽標籤質量不及有監督數據,但往往能夠得到比較通用的表徵。我們使用基於大數據訓練得到的預訓練模型,對人工精標的方言資料進行微調。這樣可以保留預訓練模型帶來的優秀泛化性能,同時提升模型對方言的辨識效果
######################## #平均字錯誤率需要進行重寫#########################為了保持原意不變,需要將內容改寫為粵語。 ########################閩南地區是中國福建省的一個地域,位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異,被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主,其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多,包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色,以海鮮、糕點和福建菜為主要代表。總的來說,閩南地區是一個充滿魅力和獨特文化的地方############ |
重寫內容為:北京 |
中原官話 |
需要重寫的內容是:西南官話 |
|||
單一方言 |
#要重新寫的內容是:35.3 |
|||||
需要進行改寫的內容是:100wh預訓練方言混合微調 |
17.21 |
13.14 |
#需要重寫的內容是:22.84 |
#要重寫的是:19.60 |
#19.50 # |
10.95 |
方言翻譯階段
在通常情況下,機器翻譯模型的訓練需要大量語料的支援。然而,方言通常以口語傳播,而現今方言使用者的數量逐年減少。這些現像都增加了方言語料資料收集的難度,從而使方言的機器翻譯效果難以提升
為了解決方言語料不足的問題,火山翻譯團隊提出多語言翻譯模型mRASP (multilingual Random Aligned Substitution Pre-training)和mRASP2,透過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統一的訓練框架之下,充分利用語料,來學習更好的語言無關表示,由此提升多語言翻譯性能。
論文網址:https://arxiv.org/abs/2105.09501
#加入對比學習任務的設計是基於一個經典的假設:不同語言中同義句的編碼後的表示應在高維度空間的相鄰位置。因為不同語言中的同義句對應的句意是相同的,也就是「編碼」過程的輸出是相同的。例如「早安」和「Good morning」這兩句話對於懂中文和英文的人來說,理解到的意思是一樣的,這也就對應了「編碼後的表示在高維度空間的相鄰位置」。
重新設計訓練目標
#mRASP2在傳統的交叉熵損失(cross entropy loss) 的基礎上,加入了對比損失(contrastive loss) ,以多任務形式進行訓練。圖中橘色的箭頭指示的是傳統使用交叉熵損失 (Cross Entropy Loss, CE loss) 訓練機器翻譯的部分;黑色的部分指示的是對比損失 (Contrastive Loss, CTR loss) 對應的部分。
字詞對齊資料增強方法又稱對齊增強(Aligned Augmentation, AA),是從mRASP的隨機對齊變換(Random Aligned Substitution, RAS)方法發展而來的。
重寫後的內容如下:根據圖示,圖(a)展示了對平行語料的增強過程,圖(b)展示了對單語語料的增強過程。在圖(a)中,原本的英語單字被替換為對應的中文單字;而在圖(b)中,原本的中文單字被替換為英文、法文、阿拉伯語和德文。 mRASP的RAS等同於第一種替換方式,只需要提供雙語同義詞詞典;而第二種替換方式則需要提供包含多種語言的同義詞詞典。值得一提的是,在使用對齊增強方法時,可以選擇只採用圖(a)的方法或只採用圖(b)的方法
實驗結果顯示mRASP2在有監督、無監督、零資源的場景下均取得翻譯效果的提升。其中有監督情境平均提升 1.98 BLEU,無監督情境平均提升 14.13 BLEU,零資源情境平均提升 10.26 BLEU。 此方法在廣泛場景下取得了明顯的效能提升,可以大幅緩解低資源語種訓練資料不足的問題。
寫在最後
方言和國語互相補充,都是中華傳統文化的重要表達方式。方言作為一種表達方式,代表著中國人對家鄉的情感和連結。透過短片和方言翻譯,可以幫助廣大用戶無障礙地欣賞來自全國各地不同區域的文化
當前,抖音「方言翻譯」功能現已支援為了保持原意不變,需要將內容改寫為粵語。 、閩語、吳語(重寫內容為:北京)、需要重寫的內容是:西南官話(四川)、中原官話(陝西、河南)等,據說未來還將支持更多方言,一起拭目以待吧。
以上是全抖音都在說家鄉話,兩項關鍵技術助你「聽懂」各地方言的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

火山引擎總裁譚待企業要做好大模型落地,面臨模型效果、推理成本、落地難度的三大關鍵挑戰:既要有好的基礎大模型做支撐,解決複雜難題,也要有低成本的推理服務讓大模型廣泛應用,還要更多工具、平台和應用程式幫助企業做好場景落地。 ——譚待火山引擎總裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最關鍵的挑戰。譚待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均處理1,200億tokens文字、生成3,000萬張圖片。為助力企業做好大模型場景落地,位元組跳動自主研發的豆包大模型將透過火山

經過一年多的發展,AIGC已經從文字對話、圖片生成逐步邁進到視訊生成。回想四個月前,Sora的誕生讓影片生成賽道經歷了一場洗牌,大力推動了AIGC在影片創作領域的應用範圍和深度。在人人都在談論大模型的時代,我們一方面驚訝於影片生成帶來的視覺震撼,另一方面又面臨落地難問題。誠然,大模型從技術研發到應用實務仍處於一個磨合期,仍需結合實際業務場景進行調優,但理想與現實的距離正被逐步縮小。行銷作為人工智慧技術的重要落地場景,成為了許多企業及從業者想要突破的方向。掌握了恰當方法,行銷影片的創作過程就會

日前,火山引擎語音合成產品獲得國家語音及影像辨識產品品質檢驗檢測中心(以下簡稱「AI國檢中心」)頒發的語音合成增強級檢驗檢測證書,在語音合成的基本要求以及擴展要求上已達AI國檢中心的最高等級標準。本次評測從中文普通話、多方言、多語種、混合語種、多音色、個性化等維度進行評測,產品的技術支援團隊-火山語音團隊提供了豐富的音庫,經評測其音色MOS評分最高可達4.64分,處業界領先水準。作為我國質檢系統在人工智慧領域的首家、也是唯一的國家級語音及影像產品品質檢驗檢測機構,AI 國檢中心一直致力於推動智能

1.購買商品前,消費者會在社群媒體上搜尋並瀏覽商品評價。因此,企業在社群平台上針對產品行銷變得越來越重要。行銷的目的是為了:促進產品的銷售樹立品牌形象提高品牌認知度吸引並留住客戶最終提高企業的盈利能力大模型具備出色的理解和生成能力,可以透過瀏覽和分析用戶數據為用戶提供個性化內容推薦。在《AIGC體驗派》第四期中,兩位嘉賓將深入探討AIGC技術在提升「行銷轉換率」方面所扮演的角色。直播時間:7月10日19:00-19:45直播主題:留住用戶,AIGC如何透過個人化提升轉換率?第四集節目邀請到兩位重

長期以來,火山引擎為時下風靡的視訊平台提供基於語音辨識技術的智慧視訊字幕解決方案。簡單來說,就是透過AI技術自動將影片中的語音和歌詞轉化成文字,輔助影片創作的功能。但伴隨平台使用者的快速成長以及對語言種類更加豐富多元的要求,傳統採用的有監督學習技術日漸觸及瓶頸,這讓團隊著實犯了難。眾所周知,傳統的有監督學習會對人工標註的有監督數據產生嚴重依賴,尤其在大語種的持續優化以及小語種的冷啟動方面。以中文普通話和英語這樣的大語種為例,儘管視頻平台提供了充足的業務場景語音數據,但有監督數據達到一定規模之後,繼

國慶期間,抖音上「一句方言證明你是地道家鄉人」的活動在吸引了全國各地的網友熱情參與,話題最高登上抖音挑戰榜第一位,播放量已超過5000萬。這場「各地方言大賞」能夠在網路上快速走紅,離不開抖音新推出的地方方言自動翻譯功能的功勞。創作者們在錄製家鄉話的短視頻時,使用了“自動字幕”功能,並選擇了“轉為普通話字幕”,這樣就能夠自動識別視頻中的方言語音,並將方言內容轉化為普通話字幕,讓其他地區的網友也能輕鬆聽懂各種「加密型國語」。福建的網友親自測試後表示,就連「十里不同音」的閩南地區是中國福建省的一個地域

健康+AI=?中老年腦健康營養解決方案、數智化營養健康服務、AIGC大健康社區方案…隨著「健康+AI」生態創新大賽的展開,一個個蘊含技術能量、賦能健康產業的創新方案呼之欲出,「健康+AI=?」的答案正在慢慢浮現。 12月26日,伊利集團與火山引擎聯合主辦的「健康+AI」生態創新大賽圓滿收官,上海博斯騰網路科技有限公司、中科蘇州智慧計算技術研究院等6家優勝企業脫穎而出。在歷時一個多月的角逐中,伊利攜手優秀科創企業共同探索AI技術與健康產業的深度融合,將大賽期待值持續拉滿。 「健康+AI」生態創新競賽

7月3日晚,抖音攜手環球音樂旗下廠牌寶麗金,直播經過火山引擎超清修復的Beyond Live1991生命接觸演唱會及紀念音樂會精選內容,吸引了超1.4億人次觀看。 Beyond是一支成立於1983年的搖滾樂隊,隨著粵語音樂的興起,Beyond樂隊的名字成為一個時代的文化印記。 「Beyond Live1991生命接觸」 是Beyond第一次在紅磡體育館舉辦的演唱會,寶麗金隨後發行的影碟在90年代幾乎一盤難求。此後的31年中,這場演唱會成為幾代歌迷的音樂啟蒙與青春記憶。受限於當時的拍攝器材、儲存媒體及
