研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱
亞馬遜雲端運算人工智慧實驗室的研究人員最近發現,網路上存在大量由機器翻譯產生的內容,而這些翻譯跨越多種語言的品質普遍較低。研究團隊強調了在訓練大型語言模型時,資料品質和來源的重要性。這項發現突顯了在建立高品質語言模型時,需要更加關注數據的品質和來源的選擇。
研究也發現,機器生成內容在資源較少語言的翻譯中很普遍,並佔網路內容的很大一部分。
本站注意到,研究團隊開發了名為MWccMatrix的龐大資源,用於更好地理解機器翻譯內容的特徵。該資源包含64億個獨特句子,涵蓋了90種語言,並提供了相互翻譯的句子組合,即翻譯元組。
這項研究發現,大量網路內容通常透過機器翻譯被翻譯成多種語言。這種現象普遍存在於資源較少語言的翻譯中,並且佔據了這些語言網路內容的很大一部分。
研究人員也注意到,出於廣告收入等目的,被翻譯成多種語言的內容有選擇性偏差。
根據我的研究,我得出以下結論:「過去十年,機器翻譯技術取得了顯著進步,但仍然無法達到人類品質水平。在過去的多年中,人們使用了當時可用的機器翻譯系統將內容添加到網路上,因此網路上大部分機器翻譯內容的品質可能相對較低,無法滿足現代標準。這可能導致LLM模型產生更多的'幻覺',而選擇偏差則表明即使不考慮機器翻譯錯誤,資料品質也可能較低。對於LLM的訓練來說,資料品質至關重要,高品質的語料庫,如書籍和維基百科文章,通常需要進行多次向上採樣。」
以上是研究:網路充斥低質機翻內容,大語言模型訓練需警覺資料陷阱的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

譯者|布加迪審校|重樓本文介紹如何使用GroqLPU推理引擎在JanAI和VSCode中產生超快速反應。每個人都致力於建立更好的大語言模型(LLM),例如Groq專注於AI的基礎設施方面。這些大模型的快速響應是確保這些大模型更快捷響應的關鍵。本教學將介紹GroqLPU解析引擎以及如何在筆記型電腦上使用API和JanAI本地存取它。本文也將把它整合到VSCode中,以幫助我們產生程式碼、重構程式碼、輸入文件並產生測試單元。本文將免費創建我們自己的人工智慧程式設計助理。 GroqLPU推理引擎簡介Groq

大語言模型潛力被激發-無需訓練大語言模型就能實現高精度時序預測,超越一切傳統時序模型。蒙納士大學、螞蟻和IBM研究院共同開發了一個通用框架,成功推動了大語言模型跨模態處理序列資料的能力。該框架已成為一項重要的技術創新。時序預測有益於城市、能源、交通、遙感等典型複雜系統的決策。自此,大模型可望徹底改變時序/時空資料探勘方式。通用大語言模型重編程框架研究團隊提出了一個通用框架,將大語言模型輕鬆用於一般時間序列預測,而無需做任何訓練。主要提出兩大關鍵技術:時序輸入重編程;提示做前綴。 Time-

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

本文將第二屆OpenHarmony技術大會上展示的《在OpenHarmony本地部署大語言模型》成果開源,開源位址:https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/InferLLM/docs/ hap_integrate.md。實作思路與步驟移植輕量級LLM模型推理架構InferLLM到OpenHarmony標準系統,編譯出能在OpenHarmony運作的二進位產物。 InferLLM是個簡單又有效率的L

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

大語言模型(LLMs)在語言理解和各種推理任務中展現出令人印象深刻的表現。然而,它們在人類認知的關鍵一面——空間推理上,仍然未被充分研究。人類具有透過一種被稱為心靈之眼的過程創造看不見的物體和行為的心智圖像的能力,從而使得對未見世界的想像成為可能。受到這種認知能力的啟發,研究人員提出了「思維視覺化」(VisualizationofThought,VoT)。 VoT旨在透過視覺化其推理跡象來引導LLMs的空間推理,從而引導後續的推理步驟。研究人員將VoT應用於多跳空間推理任務,包括自然語言導航、視覺

大語言模型(LargeLanguageModels,LLMs)在過去兩年內迅速發展,湧現出一些現象級的模型和產品,如GPT-4、Gemini、Claude等,但大多數是閉源的。研究界目前能接觸到的大部分開源LLMs與閉源LLMs存在較大差距,因此提升開源LLMs及其他小模型的能力以減小其與閉源大模型的差距成為了該領域的研究熱點。 LLM的強大能力,特別是閉源LLM,使得科研人員和工業界的從業者在訓練自己的模型時都會利用到這些大模型的輸出和知識。這個過程本質上是知識蒸餾(Knowledge,Dist

目前人工智慧技術面臨的最大風險是大語言模型(LLM)和生成式人工智慧技術的發展和應用速度已經遠遠超過了安全和治理的速度。 OpenAI、Anthropic、Google和微軟等公司的生成式人工智慧和大語言模式產品的使用正呈指數級增長。同時,開源大語言模型方案也在高速成長,HuggingFace等開源人工智慧社群提供了大量開源模型、資料集和AI應用。為了推動人工智慧的發展步伐,OWASP、OpenSSF、CISA等產業組織正在積極開發和提供人工智慧安全與治理關鍵資產,例如OWASPAIExchange、
