目錄
Few-Shot泛化
資料收集
1. 詞彙Lixical
2. 實體Entity
3. 隨機Random
系統效能
首頁 科技週邊 人工智慧 谷歌開源首個「方言」資料集:讓機器翻譯更地道

谷歌開源首個「方言」資料集:讓機器翻譯更地道

Apr 08, 2023 am 10:51 AM
Google 數據集 機器翻譯

雖然全中國的人都在說漢語,但具體到各地的方言卻略有不同,比如同樣是小巷的意思,“胡同”一開口就知道是老北京了,而到了南方則叫“弄」。

這種細微的地域性差異反應在「機器翻譯」任務上,就會顯得翻譯結果不夠「地道」,而目前幾乎所有的機器翻譯系統都沒有考慮地區性語言(即方言)的影響。

而在世界各地也存在這種現象,例如巴西的官方語言是葡萄牙語,跟歐洲的葡萄牙語之間也有一些地域性差異。

最近Google發布了一個全新的,可用於Few-shot Region-aware機器翻譯的資料集和評估基準FRMT,主要解決方言翻譯問題,論文發表在TACL(Transactions of the Association for Computational Linguistics)上。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

論文連結:https://arxiv.org/pdf/2210.00193.pdf

開源連結:https:// github.com/google-research/google-research/tree/master/frmt

此資料集包括從英語到葡萄牙語和中文普通話的兩個地區變體的專業翻譯,源文檔是為了能夠詳細分析感興趣的現象,包括詞彙上不同的術語和乾擾術語。

研究人員探索了 FRMT 的自動評估指標,並在區域匹配和不匹配評分情境下驗證了其與專家人工評估的相關性。

最後,為這項任務提出了一些基準模型,並為研究人員如何訓練、評估和比較自己的模型提供指導建議,資料集和評估程式碼已開源。

Few-Shot泛化

大多數現代機器翻譯系統都經過數百萬或數十億翻譯樣本的訓練,輸入資料包括英文輸入句及其對應的葡萄牙文翻譯。

然而,絕大多數可用的訓練資料並沒有說明翻譯的地區差異。

鑑於這種數據稀缺性,研究人員將FRMT 定位為few-shot翻譯的基準,當給定每種語言不超過100個帶標籤的例子時,測量機器翻譯模型識別出指定區域語言變體的能力。

機器翻譯模型需要根據少量標記過的樣本(即範例)中顯示的語言模式,來辨識出其他未標記訓練樣本中的相似模式。模型需要透過這種方式進行泛化,從而產生模型中沒有明確指定區域的「地道」翻譯結果。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

例如輸入句子:The bus arrived,再給定幾個巴西葡萄牙語的例子,模型應該能翻譯出「O ônibus chegou」;如果給的範例是歐洲葡萄牙語,模型的翻譯結果應該變成「O autocarro chegou」。

機器翻譯的few-shot方法是很有研究價值的,能夠以一種非常簡單的方式來對現有系統中增加對額外區域語言的支援能力。

雖然Google目前發表的工作是針對兩種語言的區域變體,但研究人員預測,一個好的方法將很容易適用於其他語言和區域的變體。

從原理上來說,這些方法也適用於其他語言差異現象,例如禮節和風格等。

資料收集

FRMT 資料集包括部分英文維基百科文章,來自Wiki40b 資料集,這些文章已經由付費的專業翻譯人員翻譯成不同的地區性的葡萄牙語和漢語。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

為了突顯關鍵區域感知的翻譯難題,研究人員使用了三個內容桶(content buckets)來設計資料集:

1. 詞彙Lixical

詞彙桶主要關注不同地區在詞彙選擇上的差異,例如當把一個帶有當單字「bus」的句子分別翻譯成巴西語和歐洲葡萄牙語時,模型需要能夠辨識出「ônibus」與「autocarro」的差異。

研究人員根據部落格和教育網站手動收集了20-30個具有地區特色的翻譯術語,並根據來自每個地區的母語志工的回饋對翻譯進行過濾和審核。

根據得到的英語術語列表,從相關的英語維基百科文章(例如,bus)中提取出100個句子。再對國語,重複上述相同的收集過程。

#

谷歌開源首個「方言」資料集:讓機器翻譯更地道

2. 實體Entity

#實體桶以類似的方式填充,涉及的人、位置或其他實體與某一特定語言所涉兩個區域之一有著密切聯繫。

例如給定一個說明性的句子,如「In Lisbon, I often took the bus.」(在里斯本,我經常坐公共汽車。),為了正確地將其翻譯成巴西葡萄牙語,模式必須能夠識別出兩個潛在的陷阱:

1)里斯本和葡萄牙之間更密切的地理關聯可能會影響模型翻譯的選擇,從而幫助模型判斷應該翻譯成歐洲葡萄牙語而非巴西葡萄牙語,即選擇“autocarro”而不是“ônibus”。

2)用「巴西利亞」取代「里斯本」可能是比較簡單的方式,對於同一個模式,對巴西葡萄牙語在地化其輸出,即便翻譯結果仍然很流暢,但也可能導致不準確的語義。

3. 隨機Random

隨機桶用於檢查一個模型是否正確處理了其他不同的現象,包含從維基百科的featured和good)集合中隨機抽取的100篇文章。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

系統效能

為了驗證FRMT 資料集所收集的翻譯能夠捕捉特定區域的現象,研究人員對數據品質進行了人工評估。

來自每個對應區域的專家標註員使用多維品質度量(MQM)框架來識別和分類翻譯中的錯誤:該框架包括一個分類加權方案,將識別出的錯誤轉換成單一的分數,粗略地表示每句話的主要錯誤數量,即數值越小表示翻譯越好。

對於每個地區,研究人員要求 MQM 評分者對來自他們所在地區的翻譯和來自他們語言的其他地區的翻譯進行評分。

例如,巴西的葡萄牙語評分員同時對巴西和歐洲的葡萄牙語譯本都進行了評分,兩個分數之間的差異表明語言現象的普遍性,即該語言變體是否可接受,而非另一種語言。

實驗結果發現,在葡萄牙語和漢語中,評分者平均比匹配的譯文中每個句子多發現大約兩個主要錯誤,表明FRMT數據集確實能夠捕獲特定區域的語言現象。

雖然人工評估是確保模型品質的最佳方法,但其往往是緩慢且昂貴的。

因此,研究人員希望找到一個現成的自動度量指標,可以用來評估模型在基準中的性能,研究人員考慮選擇使用chrF,BLEU 和BLEURT.

谷歌開源首個「方言」資料集:讓機器翻譯更地道

根據MQM 評估者對幾個基準模型翻譯結果的評分,可以發現BLEURT 與人類判斷具有最好的相關性,且此相關性的強度(0.65 Pearson 相關係數,ρ)與標註者間一致性(0.70組內相關性)相當。

系統效能

文中評估了一些最近發布的、具有few-shot控制能力的模型。

基於MQM 的人類評估,基線方法都表現出一定的localize葡萄牙語輸出的能力,但是對於中文普通話,大多沒有利用目標地區的知識來生成優秀的當地翻譯結果。

在評估的基準中,Google的語言模型PaLM 模型的表現最佳,為了使用PaLM 產生針對區域的翻譯,首先將一個有指導意義的提示輸入模型,然後從中生成文字以填充空白。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

#PaLM 僅透過一個例子就獲得了很好的結果,在葡萄牙語方面,當增加到10個例子時,品質略有提高,考慮到PaLM 是在無監督的情況下進行訓練的,這種表現已經非常好了。

研究結果也表明,像 PaLM 這樣的語言模型可能特別擅長記憶流暢翻譯所需的特定區域的詞彙選擇。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

然而,在 PaLM 和人類之間仍然存在顯著的表現差距。

參考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上是谷歌開源首個「方言」資料集:讓機器翻譯更地道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

芝麻開門交易所網頁版登入口 最新版gateio官網入口 芝麻開門交易所網頁版登入口 最新版gateio官網入口 Mar 04, 2025 pm 11:48 PM

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

芝麻開門交易平台下載手機版 gateio交易平台下載地址 芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App,保障您的賬戶安全至關重要。

Bitget交易平台官方App下載安裝地址 Bitget交易平台官方App下載安裝地址 Feb 25, 2025 pm 02:42 PM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

2025年Bitget最新下載地址:獲取官方App的步驟 2025年Bitget最新下載地址:獲取官方App的步驟 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

如何在Bitget官網註冊並下載最新App 如何在Bitget官網註冊並下載最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

See all articles