社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-04-25 12:04:06

轉載

1620 人瀏覽過

上週，OpenAI發布的ChatGPT API和Whisper API，剛剛引來了一場開發者的狂歡。

3月6日，Google就推出了對標的模型－USM。不僅可以支援100多種語言，而且參數量也達到了20億。

當然了，模型仍然沒有對外開放，「這很Google」！

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#簡單來說，USM模型在涵蓋1200萬小時語音、280億個句子和300種不同語言的無標註資料集中進行了預訓練，並在較小的標註訓練集中進行了微調。

Google的研究人員表示，雖然用於微調的標註訓練集僅有Whisper的1/7，但USM卻有著與其相當甚至更好的性能，並且還能夠有效地適應新的語言和數據。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#論文網址：https://arxiv.org/abs/2303.01037

結果顯示，USM不僅在多語言自動語音辨識和語音-文字翻譯任務評測中實現了SOTA，而且還可以實際用在YouTube的字幕生成上。

目前，支援自動偵測和翻譯的語種包括，主流的英語、漢語，以及阿薩姆語這類的小語種。

最重要的是，還能用於Google去年IO大會展示的未來AR眼鏡的即時翻譯。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

Jeff Dean親自官宣：讓AI支援1000種語言

當微軟和谷歌就誰家擁有更好的AI聊天機器人爭論不休時，要知道，大型語言模型的用途可不僅於此。

去年11月，Google先宣布了新計畫「開發一種支援全球1000種最常用語言的人工智慧語言模型」。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#同年，Meta也發表了一個名為「No Language Left Behind」模型，並稱可以翻譯200多種語言，旨在打造「通用翻譯器」。

而最新模型的發布，Google將其描述為通往目標的「關鍵一步」。

在打造語言模型上，可謂群雄逐鹿。

據傳言，Google計劃在今年的年度 I/O 大會上展示20多款由人工智慧驅動的產品。

目前，自動語音辨識面臨許多挑戰：

##的傳統的監督學習方法缺乏可擴展性

在傳統的方法中，音訊資料需要費時又費錢的手動標記，或從有預先存在的轉錄的來源中收集，而對於缺乏廣泛代表性的語言來說，這很難找到。 #

擴大語言覆蓋率和品質的同時，模型必須以高效的計算方式進行改進

##這就要求演算法能夠使用來自不同來源的大量數據，在不需要完全重新訓練的情況下實現模型的更新，並且能夠推廣到新的語言和使用案例。

微調自監督學習

根據論文介紹，USM的訓練採用了三種資料庫：未配對的音訊資料集、未配對的文本資料集、配對的ASR語料庫。

未配對的音訊資料集

#包括YT-NTL-U（超1200萬小時YouTube無標籤音訊資料）和Pub-U（超429,000小時的51種語言的演講內容）

未配對的文字資料集

#Web-NTL（超1140種不同語言的280億個句子）

配對的ASR語料庫

#YT-SUP 和Pub-S語料庫（超10,000小時的音訊內容和配對文字）

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

USM使用標準的編碼器-解碼器結構，其中解碼器可以是CTC、RNN -T或LAS。

對於編碼器，USM使用了Conformor，或卷積增強Transformer。

訓練過程共分為三個階段。

在初始階段，使用BEST-RQ（基於BERT的隨機投影量化器的語音預訓練）進行無監督的預訓練。目標是為了優化RQ。

在下一階段，進一步訓練語音表徵學習模型。

使用MOST（多目標監督預訓練）來整合來自其他文字資料的資訊。

該模型引入了一個額外的編碼器模組，以文字作為輸入，並引入了額外的層來組合語音編碼器和文字編碼器的輸出，並在未標記的語音、標記的語音和文字資料上聯合訓練模型。

最後一步是，對ASR（自動語音辨識）和AST（自動語音翻譯）任務進行微調，經過預訓練的USM模型只需少量監督數據就可以取得很好的效能。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

USM整體訓練流程

USM的表現如何，Google對其在YouTube字幕、下游ASR任務的推廣、以及自動語音翻譯上進行了測試。

YouTube多國語言字幕上的表現#

受監督的YouTube資料包括73種語言，每種語言的資料時長平均不到3000小時。儘管監督數據有限，但模型在73種語言中實現了平均不到30%的單字錯誤率（WER），這比美國內部最先進的模型相比還要低。

此外，Google與超40萬小時標註資料訓練出的Whisper模型 (big-v2) 進行了比較。

在Whisper能解碼的18種語言中，其解碼錯誤率低於40%，而USM平均錯誤率僅32.7%。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#對下游ASR任務的推廣

#在公開的資料集上，與Whisper相比，USM在CORAAL（非裔美國人的方言英語）、SpeechStew（英文-美國）和FLEURS（102種語言）上顯示出更低的WER，不論是否有域內訓練資料。

兩種模型在FLEURS上的差異尤其明顯。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#在AST任務上的表現

在CoVoST資料集上對USM進行微調。

將資料集中的語言依資源可用性分為高、中、低三類，在每一類上計算BLEU分數（越高越好），USM在每一類的表現的優於Whisper。

研究發現，BEST-RQ預訓練是將語音表徵學習擴展到大資料集的有效方法。

當與MOST中的文字注入相結合時，它提高了下游語音任務的質量，在FLEURS和CoVoST 2基準上實現了最好的性能。

透過訓練輕量級剩餘適配器模組，MOST表示能夠快速適應新的領域。而這些剩餘適配器模組只增加2%的參數。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#Google稱，目前，USM支援100多種語言，到未來將擴展到1000多種語言。有了這項技術，或許對於每個人來講走到世界各地都穩妥了。

甚至，未來即時翻譯GoogleAR眼鏡產品將會吸引眾多粉絲。

不過，現在這項技術的應用還是有很長的路要走。

畢竟在面向世界的IO大會演講中，Google還把阿拉伯文寫反了，引來眾多網友圍觀。

再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯

#

以上是再勝OpenAI！谷歌發布20億參數通用模型，100多種語言自動辨識翻譯的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

Google 模型

上一篇：微軟總裁布拉德・史密斯：中國將是 ChatGPT 的主要對手，我們的優勢不大下一篇：科技大公司上萬人研究AI，為何比不上OpenAI小團隊

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

如何使用Yolo V12進行對象檢測？

2025-03-22 11:07:21
2025年2月的Genai推出前5名：GPT-4.5，Grok-3等！

2025-03-22 10:58:15
Uber的指南H3用於空間索引

2025-03-22 10:54:14
R.E.D。：與專家代表團的縮放文本分類

2025-03-22 10:33:09
DeepSeek #opensourceweek第6天：推理系統概述

2025-03-22 10:26:10

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1439340
php入門教程之一週學會PHP

4300555
JAVA 初級入門影片教學

2682161
小甲魚零基礎入門學習Python影片教學

517876
PHP 零基礎入門教學

879347

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板