Meta用《聖經》訓練超多語言模型:辨識1107種、辨識4017種語言
在《聖經》中有一個巴別塔的故事,說是人類聯合起來計劃興建一座高塔,希望能通往天堂,但神擾亂了人類的語言,計劃也就因此失敗。到了今天,AI 技術有望拆除人類語言之間的藩籬,幫助人類創造文明的巴別塔。
近日,Meta 的一項研究向這個方面邁出了重要一步,他們將新提出的方法稱為Massively Multilingual Speech(超多語言語音/ MMS),其以《聖經》作為訓練資料的一部分,得到了以下成果:
- 在1107 種語言上用wave2vec 2.0 訓練得到了一個有10 億參數的多語言語音識別模型,相較於OpenAI 的Whisper 模型,其錯誤率降低了50% 以上。
- 單一音訊合成模型就支援這 1107 種語言的文字轉語音(TTS)。
- 發展了一個能夠辨識 4017 種語言的語言辨識分類器。
對於許多罕見語言的資料稀少問題,Meta 是如何解決的呢?他們採用的方法很有意思,即採用宗教的語料庫,因為像《聖經》這樣的語料具有最「對齊的」語音資料。儘管這個資料集偏向宗教內容並且主要是男性聲音,但其論文表明這個模型在其它領域以及使用女聲時也表現優良。這是基礎模型的湧現行為,著實讓人驚嘆。而更令人驚嘆的是,Meta 將新開發的模型(語音辨識、TTS 和語言辨識)都免費發佈出來了!
- 模型下載:https://github.com/facebookresearch/fairseq/tree/main/examples/mms
- 論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
新提出的方法
為了打造出一個能辨識千言萬語的語音模型,首要的挑戰是收集各種語言的音訊數據,因為現目前已有的最大語音資料集也只有至多100 種語言。為了克服這個問題,Meta 的研究者使用了宗教文本,例如《聖經》,這些文本已被翻譯成了許多不同語言,而那些譯本都已被廣泛研究過。這些譯本都有人們用不同語言閱讀的錄音,而這些音訊也是公開可用的。使用這些音頻,研究者創建了一個資料集,其中包含人們用 1100 種語言閱讀《新約》的音頻,其中每種語言的平均音頻長度為 32 小時。
然後他們又納入了基督教的其它許多讀物的無標註錄音,從而將可用語言數量增加到了 4000 以上。儘管這個資料集領域單一,而且大都是男聲,但分析結果表明 Meta 新開發的模型在女聲上表現也同樣優良,並且該模型也不會格外偏向於產生更宗教式的語言。研究者在部落格中表示,這主要是得益於他們使用的Connectionist Temporal Classification(連結主義時間分類)方法,相較於大型語言模型(LLM)或序列到序列語音辨識模型,這種方法要遠遠更為受限。
潛在的性別偏誤情況分析。在 FLEURS 基準上,這個在超多語言語音(MMS)資料集上訓練的自動語音辨識模型在男聲和女聲上的錯誤率是差不多的。
為了提升資料質量,使之能被機器學習演算法使用,他們也採用了一些預處理方法。首先,他們在現有的 100 多種語言的資料上訓練了一個對齊模型,然後再搭配使用了一個高效的強制對齊演算法,該演算法可處理 20 分鐘以上的超長錄音。之後,經過多輪對齊過程,最終再執行一步交叉驗證過濾,基於模型準確度移除可能未對齊的資料。為了方便其他研究者創建新的語音資料集,Meta 將該對齊演算法添加到了 PyTorch 並釋放了該對齊模型。
要訓練出普遍可用的監督式語音辨識模型,每種語言只有 32 小時的資料可不夠。因此,他們的模型是基於 wav2vec 2.0 開發的,這是他們先前在自監督語音表徵學習上的研究成果,能大幅減少訓練所需的有標註資料量。具體來說,研究者使用 1400 多種語言的大約 50 萬小時語音資料訓練了一個自監督模型 —— 這個語言數量已經超過之前任何研究的五倍以上了。然後,基於具體的語音任務(例如多語言語音辨識或語言辨識),研究者再對所得模型進行微調。
結果
研究者在一些已有基準上評估了新開發的模型。
其多語言語音辨識模型的訓練使用了含 10 億參數的 wav2vec 2.0 模型,訓練資料集包含 1,100 多種語言。隨著語言數量增加,模型表現確實會下降,但下降幅度非常小:當語言數量從 61 種增加到 1107 種時,字元錯誤率僅上升了 0.4%,但語言覆蓋範圍卻增加了 18 倍以上。
在61 種FLEURS 語言的基準測試上,隨語言數量增長的字元錯誤率變化情況,錯誤率越高,模型越差。
透過比較 OpenAI 的 Whisper 模型,研究者發現他們的模型的單字錯誤率僅有 Whisper 的一半,而同時新模型支援的語言數量還多 11 倍。這個結果足以顯示新方法的卓越能力。
在可直接比較的54 種FLEURS 語言的基準測試上,OpenAI Whisper 與MMS 的單字錯誤率對比。
接下來,使用先前已有的資料集(如FLEURS 和CommonVoice)和新資料集,Meta 的研究者也訓練了一個語言辨識(LID)模型,並在FLEURS LID 任務上進行了評估。結果表明,新模型不僅表現很棒,而且支援的語言數量也增加了 40 倍。
先前的研究在 VoxLingua-107 基準上也僅支援 100 多種語言,而 MMS 支援超過 4000 種語言。
另外 Meta 也建構了一個支援 1100 種語言的文字轉語音系統。目前文字轉語音模型的訓練資料通常是來自單一說話者的語音語料。 MMS 資料的一個限制是許多語言都只有少量說話人,甚至往往只有一個說話者。但是,在建立文字轉語音系統時,這卻成了一個優勢,於是 Meta 就順便創造了一個支援 1100 多種語言的 TTS 系統。研究者表示,這些系統產生的語音品質其實相當好,下面給了幾個例子。
約魯巴語、伊洛科語和邁蒂利語的 MMS 文字轉語音模型演示。
儘管如此,研究者表示 AI 技術都仍不完美,MMS 也是。舉個例子,MMS 在語音轉文字時可能錯誤轉錄選定的單字或片語。這可能導致輸出結果中出現冒犯性和 / 或不準確的語言。研究者強調了與 AI 社群合作共同進行負責任開發的重要性。
用單一模型支援千言萬語的價值
世界上有許多語言瀕臨滅絕,而當前的語音辨識和語音生成技術的限制只會進一步加速這一趨勢。研究者在部落格中設想:也許科技能鼓勵人們留存自己的語言,因為有了好的技術後,他們完全可以使用自己喜歡的語言來獲取資訊和使用科技。
他們相信 MMS 專案是朝這個方向邁出的重要一步。他們也表示這個計畫也將繼續開發,未來也將支援更多語言,甚至還會解決方言和口音的難題。
以上是Meta用《聖經》訓練超多語言模型:辨識1107種、辨識4017種語言的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
