目錄
從基於規則,到基於統計模型,再到基於神經網路
挑戰「巴別塔」
未來趨向
來賓介紹
專欄介紹
首頁 科技週邊 人工智慧 專訪位元組跳動王明軒:機器翻譯和人工翻譯實質是兩條賽道 | T前線

專訪位元組跳動王明軒:機器翻譯和人工翻譯實質是兩條賽道 | T前線

May 24, 2023 pm 09:37 PM
人工智慧 機器翻譯 位元組跳動

技術的進步,往往意味著產業的演化發現了新的方向。翻譯業也不例外。隨著全球化進程不斷加快,人們在進行涉外活動時都離不開跨語言的交流。機器翻譯的出現大大擴充了翻譯的應用場景,固然它還遠遠稱不上完善,但卻在人類挑戰巴別塔的路上跨出了堅實的一步。 51CTO特邀位元組跳動AI Lab機器翻譯負責人王明軒,聊一聊機器翻譯發展的這些年、那些事。

從基於規則,到基於統計模型,再到基於神經網路

機器翻譯的發展與電腦技術、資訊理論、語言學等學科的發展緊密相關。進入21世紀後,隨著硬體能力的提升和演算法的優化,機器翻譯技術迎來了空前的躍進,並成功邁出象牙塔,走上了普惠之路。

51CTO:縱觀歷史,機器翻譯經歷了哪些重要的發展節點?

王明軒:機器翻譯實質是一個非常古老的問題,機器翻譯的歷史可以追溯到17世紀笛卡爾、萊布尼茨等哲學家提出的「通用語言」。 1946年等電腦正式誕生後,人們期望電腦能將一種語言翻譯成另一種語言。美國科學家瓦倫·韋弗在《翻譯備忘錄》中正式定義了機器翻譯的概念和想法。這段時期,在冷戰背景下,美蘇兩國也基於蒐集資訊的需要,投入了大量資金用於機器翻譯相關研究。

一開始大家相對較樂觀,覺得這事很快就可以搞定了。第一版的翻譯系統非常簡單,主要是基於字典,例如把“太陽”翻譯為“sun”,但這種詞對詞的翻譯很快就遇到了瓶頸,因為一詞多義的現像比較多,例如“bank”,既可以是“銀行”,也可以是“河岸”,具體語境中會面臨許多選詞的困境。 結合語言學家所製定的語意規則可以解決一部分歧義,但發展到後期,規則越多,衝突的地方也會越多,系統會越來越複雜,依然無法解決問題。

1966年美國公佈了報告《語言與機器》,全面否定了機器翻譯的可行性,並建議停止對機器翻譯專案的資金支持。受此影響,機器翻譯陷入低潮期。

直到90年代,IBM提出基於字詞對齊的翻譯模型,標誌著現代統計機器翻譯方法的誕生。基於統計的機器翻譯原理很簡單,例如要在語境中判斷bank應該翻譯成“銀行”還是“河岸”,那就進行大量的相關語料統計,會發現上下文裡有“錢”相關的,那就更有可能翻譯成“銀行”,上下文中提到“河流”,那更可能對應的是“河岸”。如此一來,不用字典與文法規則,而是依照機率來判斷具體場景下的語意。這是劃時代的變化,機器翻譯的品質得到了巨大的提升。 很快,機器翻譯開始在許多實用場景落地。

從1993到2014年基本上都屬於統計的時代,但雖說是基於統計,還是需要人工去定義很多特徵、模板,再進一步設計細節,因而也不是非常靈活,模型的能量也不是很強大。

而後到了神經網路時代,神經網路翻譯從模型上說主要包含編碼器和解碼器。編碼器把源語言經過一系列神經網路變換後表示成一個高維度向量,解碼器負責把這個高維度向量重新解碼成目標語言。 2014年Seq2Seq的提出,讓神經網路翻譯慢慢開始比統計機器翻譯做得更好。

到2017年時,Google提出Transformer,模型更大、結構更靈活、並行化程度更高,這進一步提升了翻譯品質。同年,AlphaGo的勝利也讓大家對人工智慧的信心更充分。 也正是在2017年後,機器翻譯的產業化迎來了爆發期,直到現在,整體大框架沒有太大變化,但小細節上出現了許多創新。

挑戰「巴別塔」

從字典匹配,到結合語言學專家知識的規則翻譯,再到基於語料庫的統計機器翻譯,以及目前主流的神經網路機器翻譯,相較於之前,機器翻譯的品質有了飛躍式的提升,但仍面臨重重挑戰。

51CTO:目前機器翻譯面臨的主要挑戰在哪裡?

王明軒:挑戰其實還比較多。

第一,如何做稀缺語種的機器翻譯。這是機器翻譯從誕生以來就面臨的問題。語種越小,數據量越少,語料的稀缺會是長期的挑戰。

第二,如何做多模態的機器翻譯。近年來,我們經常需要做語音翻譯、視訊翻譯,事實上這類翻譯需要AI做一些前處理之後再做翻譯。如果AI處理錯了,翻譯就可能發生錯誤。再例如,在同聲傳譯的場景,通常是邊說邊翻,拿不到完整的上下文訊息。這在多模態翻譯中都是常見問題。

第三,最本質的問題在於,目前的機器翻譯還是基於數據驅動,並沒有在理解層面上做得更為深入。模型的學習依舊是依靠語言的貢獻,而非真正理解語意。這一點大大局限了機器翻譯的上限。

51CTO:火山翻譯作為一個位元組跳動旗下機器翻譯品牌,如何面對語料稀疏問題?

王明軒:有兩個比較直接的方法。

第一種是擴充語料,努力讓稀缺語料「不再稀缺」。這種想法是,透過一些模型,盡可能從網路上取得語料。例如冰島語,我們能收集大量冰島語的單語語料,在網路上就可以去收集與單語語料相近的英文文本,我們去找這種可能對齊的語料,形成雙語去對。當然我們有時也會用人工標註,但更多的是靠智慧的方法自行增加。

第二種是利用語言的共通性。大家生活在同一個星球,雖然使用的語言不同,但其實在描述同一個世界,因此語言在高層次上是有很多共通性的。我們會借助一些遷移學習或預先訓練的方法來解決這類問題,例如讓英語的模型去幫助法語的模型,或是讓德語的模型幫助法語的模型。主要就是這兩個思路。

51CTO:在多模態的機器翻譯中,要減少噪音幹擾的話,火山翻譯採取了哪些應對策略?

王明軒:應對噪音幹擾的話,首先,進行了多種模態的聯合建模。我們會拿語音訊號和文字訊號一起去做下游的任務,這樣一來,錯誤傳遞會減少很多。目前,建構多模態的統一語意在學術界也是非常火熱的話題,所以我們也會吸收其他領域的許多東西。

其次,我們在文本這塊也會做很多穩健性訓練,盡量讓模型在有錯誤輸入的情況下,還能保證正確的輸出,或者不擴大這種錯誤,相當於把自動糾錯和機器翻譯做到了一個模型裡面。因為人其實是有這種自動糾錯能力的,例如人工譯員在聽到錯誤的訊息時,會進行自動修正,所以我們在模型裡面也會考慮這些訊息。

51CTO:同聲傳譯對延時的要求很高。但是如果沒有結合上下文的語境或聽完完整的語意,準確率又很難保證。機器翻譯如何平衡這兩者之間的矛盾?

王明軒:這一點在工業界很有挑戰性,因為不僅關乎延時和準確率的trade off,實際上需要優化的地方更多。

例如在某些會議場景中,翻譯字幕需要展示在大螢幕上,觀眾接受字幕的速度也是關鍵問題之一,包括每次字幕展示的長度、字幕彈出的頻率,都關係到如何讀起來更舒服。其中有許多細節需要我們重複和產品經理溝通,深入用戶研究來看整體滿意度。因此,這不只是準確率的問題,要把使用者的實際使用體驗都當作要素考慮進去,再來調整模型。

此外,延遲可能是使用者滿意度的指標之一,但延遲也並非越短越好。 通常有個合適的gap反而比較好。因為縮時很短的話,字幕彈出的速度也會很快,使用者的接受效果反而不太好。在這方面,我們也會借鏡業界的許多成熟做法,例如動態控製字幕翻譯的間隔。整體而言,這是一個非常工程化、產品化的問題。

未來趨向

機器翻譯仍然不是完美的,但從業者正在努力讓其變得質量更高,可用性更強,適用性更廣。讓我們來觀察一下它的發展趨勢,尤其是當機器翻譯與專業譯員發生「碰撞」時,翻譯服務場景又會產生哪些化學反應。

51CTO:隨著科技的發展,機器翻譯是否會衍生出更多有趣的應用情境?

王明軒:之前我們推出的火山翻譯AR眼鏡就是類似的嘗試。今年GoogleI/O大會上壓軸發布的AR翻譯眼鏡也是很有意思的應用,使用者配戴後可以即時看到對話者的譯文,類比字幕效果。

這其實都反映出了一種比較樸素的理想:我們希望大家能活在一個溝通無障礙的世界。 例如:出國旅遊時,戴上眼鏡就可以理解任何語言的文字提示,你看到的路牌是德語的,而顯示在眼鏡上的是中文。日常溝通時,別人跟你說話,對話訊息自動變成你所理解的文字,顯示在眼鏡下方。這都是能更有效獲取資訊的場景。

51CTO:長遠來看,機器翻譯將如何發展?

王明軒:應用方面,我覺得機器翻譯可能會和多模態應用結合得更為緊密,例如視訊內容、音訊內容的翻譯需求會越來越多。另外,機器翻譯可能會更多地與業務出海、文化出海聯繫在一起。 因為國內很多公司都在積極地進行海外業務的擴張,我認為這個領域會對機器翻譯的發展起到很大幫助。

技術面,我能看到的已經在發生的趨勢是:一是大數據和大模型的訓練。從事這一領域的人越來越多,模型越來越大,資料量也越來越大,很多人認為這種變化有可能為機器翻譯的能力帶來質變。 二是翻譯和模態的結合。不只在翻譯方面,業界很多人都在試圖建構不同模態的統一語意表示,之前幾年,不同模態之間界線還比較分明,大家交流相對也少。如今,模型越來越一致。未來可能出現一個模型,既能做文字翻譯,也能做語音翻譯,甚至能做視訊翻譯。

51CTO:未來,機器翻譯是否有可能在特定場景中完全取代手動翻譯?

王明軒:依目前這種做法肯定是取代不了人工的。不過我覺得機器翻譯和手動翻譯可能不屬於一個賽道。

機器翻譯的特點,一是速度非常快,二是可以規模化,所以它適合處理的是海量且需要及時處理的資訊。舉個例子,如果現在有一千萬個影片要從英文翻譯成法語,那麼純靠人工是不太能做到的,但是機器可以做。這一點就可以讓機器在它的賽道裡發揮很重要的作用,長期看來是大有裨益的,因為它開闊了整個市場,讓跨語言的市場變得更大。

但是對於很精細的翻譯場景,機器翻譯可能就力有不抓。就像有人提到的,機器翻譯能翻得了《紅樓夢》嗎?我認為,這不屬於機器翻譯的任務範疇。小說或詩歌之類的翻譯,這類型的翻譯必須要依仗專家。還有規格很高的會議同傳,也肯定需要專業譯員擔任,而不可能是機器。但在一些重要性不是很高的會議上,機器翻譯的成本優勢就會展現出來。

機器翻譯跟專業譯員,兩者隸屬賽道不同,區分還是很鮮明的。不過某種程度上,兩者也存在著互幫互助的關係。 這體現在:一方面,機器翻譯所需的語料就是專業譯者所生產的。專業譯員在工作過程中不斷地生產大量的語料,這些語料能夠持續幫助機器翻譯去提升能力。另一方面,機器翻譯也可以幫人減輕負擔,處理要求沒有那麼高的任務。現在也有很多譯者在做譯後編輯,很多翻譯公司讓機器先做翻譯,譯員再做編輯,效率也能因此大幅提升。

來賓介紹

王明軒,位元組跳動AI-Lab機器翻譯團隊負責人,研究方向主要為機器翻譯和自然語言處理。在機器翻譯領域,發表包括 ACL、EMNLP 等頂尖會議論文超過40 篇,多次拿到 WMT等國際翻譯評測比賽第一。同時也擔任EMNLP2022贊助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等會議領域主席。

專欄介紹

「T前線」是51CTO內容中心專為技術人物開設的深度訪談專欄之一,透過邀請科技界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀與洞察,推動前沿科技的傳播與發展。

以上是專訪位元組跳動王明軒:機器翻譯和人工翻譯實質是兩條賽道 | T前線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

七個很酷的GenAI & LLM技術性面試問題 七個很酷的GenAI & LLM技術性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

你所不知道的機器學習五大學派 你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

小米位元組聯手!小愛同學接入豆包大模型:手機、SU7已搭載 小米位元組聯手!小愛同學接入豆包大模型:手機、SU7已搭載 Jun 13, 2024 pm 05:11 PM

6月13日消息,根據字節旗下「火山引擎」公眾號介紹,小米旗下人工智慧助理「小愛同學」與火山引擎達成合作,雙方基於豆包大模型實現更智慧的AI互動體驗。據悉,位元組跳動打造的豆包大模型,每日能夠高效處理數量多達1200億個的文本tokens、生成3000萬張內容。小米借助豆包大模型提升自身模型的學習與推理能力,打造出全新的“小愛同學”,不僅更加精準地把握用戶需求,還以更快的響應速度和更全面的內容服務。例如,當使用者詢問複雜的科學概念時,&ldq

耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘 耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘 Jun 26, 2024 pm 08:37 PM

Seed-TTS是位元組跳動豆包大模型團隊近期發布的語音生成大模型成果。 ,它產生的語音幾乎與真人**無異**,連發音**缺陷**也能生成出來,尤其在學習模仿人類說話方面,**逼真度**和**流暢度**均有**出色**表現。舉例來說,將一段語音提供給Seed-TTS,它就能按文字產生全新語音,且帶上原始素材的聲音特徵。原文(Prompt):Seed-TTS產生的中文語音:突然,身邊一陣笑聲。我看著他們,意氣風發地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:「我身上的肉,是為了掩飾我爆棚的魅力,否則

See all articles