目錄
Few-Shot泛化
資料收集
1. 詞彙Lixical
2. 實體Entity
3. 隨機Random
系統效能
首頁 科技週邊 人工智慧 谷歌開源首個「方言」資料集:讓機器翻譯更地道

谷歌開源首個「方言」資料集:讓機器翻譯更地道

Apr 08, 2023 am 10:51 AM
Google 數據集 機器翻譯

雖然全中國的人都在說漢語,但具體到各地的方言卻略有不同,比如同樣是小巷的意思,“胡同”一開口就知道是老北京了,而到了南方則叫“弄」。

這種細微的地域性差異反應在「機器翻譯」任務上,就會顯得翻譯結果不夠「地道」,而目前幾乎所有的機器翻譯系統都沒有考慮地區性語言(即方言)的影響。

而在世界各地也存在這種現象,例如巴西的官方語言是葡萄牙語,跟歐洲的葡萄牙語之間也有一些地域性差異。

最近Google發布了一個全新的,可用於Few-shot Region-aware機器翻譯的資料集和評估基準FRMT,主要解決方言翻譯問題,論文發表在TACL(Transactions of the Association for Computational Linguistics)上。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

論文連結:https://arxiv.org/pdf/2210.00193.pdf

開源連結:https:// github.com/google-research/google-research/tree/master/frmt

此資料集包括從英語到葡萄牙語和中文普通話的兩個地區變體的專業翻譯,源文檔是為了能夠詳細分析感興趣的現象,包括詞彙上不同的術語和乾擾術語。

研究人員探索了 FRMT 的自動評估指標,並在區域匹配和不匹配評分情境下驗證了其與專家人工評估的相關性。

最後,為這項任務提出了一些基準模型,並為研究人員如何訓練、評估和比較自己的模型提供指導建議,資料集和評估程式碼已開源。

Few-Shot泛化

大多數現代機器翻譯系統都經過數百萬或數十億翻譯樣本的訓練,輸入資料包括英文輸入句及其對應的葡萄牙文翻譯。

然而,絕大多數可用的訓練資料並沒有說明翻譯的地區差異。

鑑於這種數據稀缺性,研究人員將FRMT 定位為few-shot翻譯的基準,當給定每種語言不超過100個帶標籤的例子時,測量機器翻譯模型識別出指定區域語言變體的能力。

機器翻譯模型需要根據少量標記過的樣本(即範例)中顯示的語言模式,來辨識出其他未標記訓練樣本中的相似模式。模型需要透過這種方式進行泛化,從而產生模型中沒有明確指定區域的「地道」翻譯結果。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

例如輸入句子:The bus arrived,再給定幾個巴西葡萄牙語的例子,模型應該能翻譯出「O ônibus chegou」;如果給的範例是歐洲葡萄牙語,模型的翻譯結果應該變成「O autocarro chegou」。

機器翻譯的few-shot方法是很有研究價值的,能夠以一種非常簡單的方式來對現有系統中增加對額外區域語言的支援能力。

雖然Google目前發表的工作是針對兩種語言的區域變體,但研究人員預測,一個好的方法將很容易適用於其他語言和區域的變體。

從原理上來說,這些方法也適用於其他語言差異現象,例如禮節和風格等。

資料收集

FRMT 資料集包括部分英文維基百科文章,來自Wiki40b 資料集,這些文章已經由付費的專業翻譯人員翻譯成不同的地區性的葡萄牙語和漢語。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

為了突顯關鍵區域感知的翻譯難題,研究人員使用了三個內容桶(content buckets)來設計資料集:

1. 詞彙Lixical

詞彙桶主要關注不同地區在詞彙選擇上的差異,例如當把一個帶有當單字「bus」的句子分別翻譯成巴西語和歐洲葡萄牙語時,模型需要能夠辨識出「ônibus」與「autocarro」的差異。

研究人員根據部落格和教育網站手動收集了20-30個具有地區特色的翻譯術語,並根據來自每個地區的母語志工的回饋對翻譯進行過濾和審核。

根據得到的英語術語列表,從相關的英語維基百科文章(例如,bus)中提取出100個句子。再對國語,重複上述相同的收集過程。

#

谷歌開源首個「方言」資料集:讓機器翻譯更地道

2. 實體Entity

#實體桶以類似的方式填充,涉及的人、位置或其他實體與某一特定語言所涉兩個區域之一有著密切聯繫。

例如給定一個說明性的句子,如「In Lisbon, I often took the bus.」(在里斯本,我經常坐公共汽車。),為了正確地將其翻譯成巴西葡萄牙語,模式必須能夠識別出兩個潛在的陷阱:

1)里斯本和葡萄牙之間更密切的地理關聯可能會影響模型翻譯的選擇,從而幫助模型判斷應該翻譯成歐洲葡萄牙語而非巴西葡萄牙語,即選擇“autocarro”而不是“ônibus”。

2)用「巴西利亞」取代「里斯本」可能是比較簡單的方式,對於同一個模式,對巴西葡萄牙語在地化其輸出,即便翻譯結果仍然很流暢,但也可能導致不準確的語義。

3. 隨機Random

隨機桶用於檢查一個模型是否正確處理了其他不同的現象,包含從維基百科的featured和good)集合中隨機抽取的100篇文章。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

系統效能

為了驗證FRMT 資料集所收集的翻譯能夠捕捉特定區域的現象,研究人員對數據品質進行了人工評估。

來自每個對應區域的專家標註員使用多維品質度量(MQM)框架來識別和分類翻譯中的錯誤:該框架包括一個分類加權方案,將識別出的錯誤轉換成單一的分數,粗略地表示每句話的主要錯誤數量,即數值越小表示翻譯越好。

對於每個地區,研究人員要求 MQM 評分者對來自他們所在地區的翻譯和來自他們語言的其他地區的翻譯進行評分。

例如,巴西的葡萄牙語評分員同時對巴西和歐洲的葡萄牙語譯本都進行了評分,兩個分數之間的差異表明語言現象的普遍性,即該語言變體是否可接受,而非另一種語言。

實驗結果發現,在葡萄牙語和漢語中,評分者平均比匹配的譯文中每個句子多發現大約兩個主要錯誤,表明FRMT數據集確實能夠捕獲特定區域的語言現象。

雖然人工評估是確保模型品質的最佳方法,但其往往是緩慢且昂貴的。

因此,研究人員希望找到一個現成的自動度量指標,可以用來評估模型在基準中的性能,研究人員考慮選擇使用chrF,BLEU 和BLEURT.

谷歌開源首個「方言」資料集:讓機器翻譯更地道

根據MQM 評估者對幾個基準模型翻譯結果的評分,可以發現BLEURT 與人類判斷具有最好的相關性,且此相關性的強度(0.65 Pearson 相關係數,ρ)與標註者間一致性(0.70組內相關性)相當。

系統效能

文中評估了一些最近發布的、具有few-shot控制能力的模型。

基於MQM 的人類評估,基線方法都表現出一定的localize葡萄牙語輸出的能力,但是對於中文普通話,大多沒有利用目標地區的知識來生成優秀的當地翻譯結果。

在評估的基準中,Google的語言模型PaLM 模型的表現最佳,為了使用PaLM 產生針對區域的翻譯,首先將一個有指導意義的提示輸入模型,然後從中生成文字以填充空白。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

#PaLM 僅透過一個例子就獲得了很好的結果,在葡萄牙語方面,當增加到10個例子時,品質略有提高,考慮到PaLM 是在無監督的情況下進行訓練的,這種表現已經非常好了。

研究結果也表明,像 PaLM 這樣的語言模型可能特別擅長記憶流暢翻譯所需的特定區域的詞彙選擇。

谷歌開源首個「方言」資料集:讓機器翻譯更地道

然而,在 PaLM 和人類之間仍然存在顯著的表現差距。

參考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上是谷歌開源首個「方言」資料集:讓機器翻譯更地道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1246
24
加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

binance怎麼註冊詳細教程(2025新手指南) binance怎麼註冊詳細教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果? 如何優化jieba分詞以改善景區評論的關鍵詞提取效果? Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

gate.io手機app使用教程 gate.io手機app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手機app使用教程:1、安卓用戶,訪問 Gate.io 官方網站,下載安卓安裝包,您可能需要在手機設置中允許安裝來自未知來源的應用;2、ios用戶,在 App Store 中搜索 "Gate.io" 下載。

虛擬幣最老的幣排行榜最新更新 虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發行於2009年1月3日,是首個去中心化數字貨幣。 2. 萊特幣(LTC),發行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發行於2011年,專為跨境支付設計。 4. 狗狗幣(DOGE),發行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發行於2015年7月30日,首個支持智能合約的平台。 6. 泰達幣(USDT),發行於2014年,是首個與美元1:1錨定的穩定幣。 7. 艾達幣(ADA),發

虛擬幣購買app安全靠譜的top10推薦 虛擬幣購買app安全靠譜的top10推薦 Mar 18, 2025 pm 12:12 PM

2025年全球虛擬幣交易平台Top 10推薦,助您玩轉數字貨幣市場!本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型,還是注重安全合規、創新功能,都能在此找到適合您的平台。 我們將從交易品種、安全性、特色功能等方面進行全面對比,助您選擇最合適的虛擬貨幣交易平台,把握2025年數字貨幣投資機遇

okex交易平台官網登錄入口 okex交易平台官網登錄入口 Mar 18, 2025 pm 12:42 PM

本文詳細介紹了歐易OKEx網頁版登錄的完整步驟,包括準備工作(確保網絡連接穩定及瀏覽器更新)、訪問官網(注意網址準確性,避免釣魚網站)、找到登錄入口(點擊官網首頁右上角的“登錄”按鈕)、輸入登錄信息(郵箱/手機號及密碼,支持驗證碼登錄)、完成安全驗證(滑動驗證、谷歌驗證或短信驗證)等五個步驟,最終成功登錄後即可進行數字資產交易等操作。 安全便捷的登錄流程,保障用戶資產安全。

See all articles