美媒揭秘大模型訓練資料集:部分內容有些'髒'
4月20日訊息,過去四個月,人工智慧聊天機器人變得越來越受歡迎,它們能夠完成各種任務,例如寫複雜的學術論文和進行緊張的對話,能力很令人驚嘆。
聊天機器人不像人類那樣思考,它們甚至不知道自己在說什麼。它們之所以能模仿人類的語言,是因為驅動它們的人工智慧已經吸收了大量的文本,其中大部分內容是從網路上抓取的。
這些文字是人工智慧在建構過程中獲取世界資訊的主要來源,它們會對人工智慧的回應方式產生深遠影響。如果人工智慧在司法考試中取得了優異成績,那可能是因為它的訓練資料中包含了數以千計的LSAT(Law School Admission Test,美國法學院入學申請考試)資料。
科技公司對他們向人工智慧提供了哪些資訊始終保密。因此,《華盛頓郵報》開始分析其中一個重要資料集,徹底揭示了用於訓練AI的專有、個人和常常具有攻擊性的網站類型。
為了探究人工智慧訓練資料的內部組成,《華盛頓郵報》與艾倫人工智慧研究所的研究人員合作,對Google的C4資料集進行了分析。這個資料集是一個包含1500多萬個網站的大量快照,這些網站內容被用來訓練許多備受關注的英語人工智慧,例如Google的T5和Facebook的LLaMA。而OpenAI並沒有透露他們使用了什麼樣的資料集來訓練支援聊天機器人ChatGPT的模型。
在這項調查中,研究人員使用網路分析公司Similarweb的資料對網站進行了分類。其中大約三分之一的網站無法進行分類而被排除,主要是因為它們已經不再存在於網路上。接著,研究人員根據資料集中每個網站出現的「token」數量,對剩下的1000萬個網站進行了排名。 token是處理訊息的小段文本,通常是一個單字或短語,用於訓練AI模型。
從維基百科到WoWhead
C4資料集的網站主要來自新聞、娛樂、軟體開發、醫療和內容創作等行業。這可以解釋為什麼這些領域可能受到新一波人工智慧的威脅。前三名的網站分別是:第一名是Google專利搜索,它包含世界各地發布的專利文本;第二名是維基百科;第三名是只接受付費訂閱的數位圖書館Scribd。此外,排名前幾名的其他網站還有盜版電子書市場Library(第190名),這個網站因非法行為被美國司法部查封。此外,資料集中還存在至少27個被美國政府認定為盜版和仿冒品市場的網站。
還有一些頂級網站也出現在其中,例如《魔獸世界》玩家論壇wowhead(第181位),以及阿里安娜·赫芬頓(Arianna Huffington)創立的用於幫助緩解職業倦怠的網站thriveglobal(第175位)。此外,還有至少10個出售垃圾箱的網站,包括dumpsteroid(第183位),但它似乎已經無法訪問。
雖然大部分網站都是安全的,但有些網站有嚴重的隱私問題。例如,有兩個排名進入前100名的網站,都私下承載了州選民登記資料庫的副本。雖然選民資料是公開的,但這些模型可能會以未知的方式使用這些個人資訊。
工商業網站佔了最大的類別(佔分類token的16%)。排名第一的是提供投資建議的The Motley Fool(第13名)。其次是允許使用者為創意專案進行群眾募資的Kickstarter網站(第25位)。而排名較後的Patreon則排名第2398,該網站幫助創作者從訂閱者那裡收取每月費用以獲得獨家內容。
然而,Kickstarter和Patreon可能會讓人工智慧取得藝術家的想法和行銷文案,人們擔憂AI可能會在向用戶提供建議時複製這些作品。目前,藝術家的作品被包括在人工智慧培訓數據中時,他們不會得到任何補償,他們已經向文本轉圖像生成器Stable Diffusion、MidJourney和DeviantArt提出了侵權索賠。
根據這次《華盛頓郵報》的分析,更多的法律挑戰可能即將到來:C4資料集中有超過2億次出現版權符號(表示註冊為智慧財產權的作品)。
技術網站是第二大類別,佔分類token的15%。這包括許多平台,它們幫助人們建立網站,例如Google協作平台(第85位),它的頁面涵蓋了從英格蘭雷丁柔道俱樂部到新澤西州幼兒園的各種內容。
C4資料集還包含了50萬多個個人博客,佔分類內容的3.8%。發布平台Medium排名第46位,是第五大科技網站,在其網域下擁有數萬個部落格。此外,還有在WordPress、Tumblr、Blogpot和Live Journal等平台上撰寫的部落格。
這些博客形式多樣,從職業到個人都有,比如一篇名為“Grumpy Rumblings”的博客,由兩位匿名的學者共同撰寫,其中一位最近寫到了他們的伴侶失業是如何影響了夫妻的稅。此外,C4資料集中還有一些專注於真人角色扮演遊戲的頂級部落格。
社交網路如Facebook和Twitter等(它們被視為現代網路的核心)的內容被禁止抓取,這意味著用於訓練人工智慧的大多數資料集都無法存取它們。 Facebook和Google等科技巨頭坐擁海量對話數據,但他們還不清楚如何使用個人用戶資訊來訓練內部使用或作為產品銷售的人工智慧模型。
新聞和媒體網站是所有類別中排名第三,而前十位網站中有半數是新聞媒體:《紐約時報》網站排名第四,《洛杉磯時報》網站排名第六,《衛報》網站排名第七,《富比士》網站則排在第八位,《赫芬頓郵報》網站排名第九,《華盛頓郵報》網站排名第11位。與藝術家和創作者一樣,多家新聞機構也批評科技公司在未經授權或提供補償的情況下使用他們的內容。
同時,《華盛頓郵報》也發現有幾家媒體在NewsGuard的獨立可信度評級中排位較低:例如俄羅斯RT(第65位)、極右翼新聞網站breitbart(第159位)以及與白人至上主義有關的反移民網站vdare(第993名)。
聊天機器人已經被證明可以分享錯誤訊息。不可信的訓練資料可能導致它們傳播偏見、宣傳錯誤訊息,而使用者卻無法追蹤到它們的原始來源。
社群網站約佔分類內容的5%,主要是宗教網站。
過濾器漏網之魚有哪些?
就像大多數公司一樣,Google在將資料提供給人工智慧之前,會對資料進行過濾和篩選。除了去除無意義和重複的文字外,該公司還使用了開源的“不良詞彙列表”,其中包括402個英文術語和一個表情符號。公司通常使用高品質的資料集來微調模型,從而屏蔽用戶不想看到的內容。
雖然這類清單旨在限制模型在接受培訓時受到種族誹謗和不良內容的影響,但很多東西都通過了過濾器的篩選。 《華盛頓郵報》發現了數百個色情網站和超過7.2萬個「納粹」例子,它們都在禁用詞彙清單中。
與此同時,《華盛頓郵報》發現,這些過濾器未能刪除某些令人不安的內容,包括白人至上主義網站、反跨性別網站以及以組織針對個人騷擾活動而聞名的匿名留言板4chan。研究中也發現了宣傳陰謀論的網站。
你的網站有沒有用來訓練AI?
網頁抓取聽起來可能像是對整個互聯網進行複製,但實際上它只是收集快照,即對特定時刻的網頁樣本抓取內容。 C4資料集最初是由非營利組織CommonCrawl創建的,於2019年4月進行網路內容抓取,是人工智慧模型訓練的熱門資源。 CommonCrawl表示,該組織試圖優先考慮最重要和聲譽最好的網站,但沒有試圖避免授權或版權保護的內容。
《華盛頓郵報》認為,將資料的完整內容呈現在人工智慧模型中至關重要,這些模型有望管理人們現代生活的許多方面。然而,這個資料集中的許多網站包含高度攻擊性語言,即使模型訓練時盡量掩蓋這些字詞,令人反感的內容仍然可能會存在。
專家表示,儘管C4資料集很龐大,但大型語言模型可能會使用更大的資料集。例如,OpenAI在2020年發布了GPT-3訓練數據,其數據量是C4中網路抓取資料量的40倍。 GPT-3的培訓數據包括所有英文維基百科、大型科技公司經常使用的、未出版作家的免費小說集以及Reddit用戶高度評價的連結文本彙編。
專家表示,許多公司甚至沒有記錄培訓數據的內容(甚至是內部數據),因為擔心發現有關可識別身份的個人資訊、受版權保護的材料和其他未經同意被竊取的數據。隨著公司強調解釋聊天機器人如何做出決策的挑戰,這是高階主管需要給出透明答案的領域。
以上是美媒揭秘大模型訓練資料集:部分內容有些'髒'的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
