陳根：Meta先下手為強推出AI大模型MMS-人工智慧-PHP中文網

陳根：Meta先下手為強推出AI大模型MMS

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-06-04 22:46:05

轉載

1004 人瀏覽過

文/陳根

你懂幾國語言？據相關資料顯示，世界上一共有7000多種語言。但是，我們懂的可能只有幾種或幾十種。而目前的電腦語音辨識技術所能涵蓋的則有100多種。這對很多人來說，已經是天文級的數字了。但Meta新開源的語言模型卻有著更大的突破。

自從和OpenAI、Google分道揚鑣之後，Meta便在開源大模型方向上越走越深。日前，Meta在GitHub上新開源的AI語言模型——Massively Multilingual Speech ( MMS，大規模多語種語音)可以識別4000多種口頭語言，是目前已知技術的40倍之多；還擴展了文本與語音之間的轉化技術的涵蓋範圍，從大約100種語言到1100多種。不僅如此，Meta開源的MMS最突出的特點是不僅支援ASR，還支援TTS，也就是說不僅可以語音轉文字，還可以文字轉語音。

陳根：Meta先下手為強推出AI大模型MMS

Meta的官網blog上特別提到的Tatuyo語，一種只有幾百人在使用的小語種。雖然對於日常來說沒什麼用，但對於研究來說卻是個很好的助手。那麼，對於這種只有幾百人使用的小語種，如何才能找到並有效的提煉資料集呢？

Meta介紹說，他們在數千種語言的音訊資料收集過程中，使用了一種非常規的方法——宗教文本錄音。「我們轉向已被翻譯成許多不同語言的宗教文本（例如《聖經》），並且其翻譯已被廣泛研究用於基於文本的語言翻譯研究。而且，這些譯本都有公開錄音，記錄了人們採用不同語言進行閱讀的情景。」

同時，Meta 在MMS 模型的訓練中結合使用了公司的「自監督語音表示學習」模型wav2vec 2.0，使機器能夠在不依賴標記訓練資料的情況下進行學習；有了它，就可以在更少的資料上訓練語音辨識模型。

而對於這種方式可能導致的模型偏向性，Meta聲稱，「雖然這些數據來自特定領域，並且通常由男性閱讀；但我們的分析表明，我們的模型在男性和女性聲音方面表現同樣出色。雖然錄音的內容是宗教的，但我們的分析表明，這並不會使模型偏向於產生更多的宗教語言。」

在使用1B參數的wav2vec 2.0模型對1100多種語言進行多語言語音識別模型的訓練的時候，研發人員發現，隨著語言數量的增加，性能會有所下降，但非常輕微：從61種語言到1107種語言，字元錯誤率只增加約0.4%，但語言覆蓋率增加了17倍以上。 ”

就此問題，Meta也與OpenAI的Whisper做了詳細的對比，在數據上訓練的模型實現了一半的單字錯誤率，並且訓練數據更少：Meta的訓練數據只有45k小時的標註數據，要比Whisper少10倍，而語言支援卻多了10倍，這是一個大的提升。不過，Meta亦表示它的新模型並不完美，「例如，語音轉文本模型可能會錯誤轉錄選定的單字或短語，這存在一定風險。但是，我們仍然相信，整個AI 社群的協作對於負責任地開發AI 技術至關重要。」而目前，Meta 已經開源了相關的模型和程式碼，以便研究社群中的其他人可以在此工作基礎上進行建構。

對於語音大模型的未來，Meta並沒有完全做好設想，但他們希望可以透過稱也做了設想，希望可以透過一個模型解決所有語言的多個語音任務。 “我們為語音識別、語音合成和語言識別訓練了不同的模型，但我們有理由相信在未來，一個模型將能夠完成所有這些任務以及更多任務，從而帶來更好的整體性能”，Meta 說道。

放眼未來，Meta希望擴大MMS的覆蓋範圍以支援更多語言，並改進其對方言的處理。進一步打破世界各地人群之間的語言障礙，讓來自全球每個角落的人們都可以透過聲音正常溝通。這是一個美好的願景，但我們相信這一天的遲早是要到來的。

以上是陳根：Meta先下手為強推出AI大模型MMS的詳細內容。更多資訊請關注PHP中文網其他相關文章！