全球優質語言資料存量告急,不容忽視
作為人工智慧的三個要素之一,數據的作用舉足輕重。
但大家有沒有想過:假如有一天,全世界的資料都用完了那咋整?
實際上,提出這個問題的人絕對沒有精神問題,因為這一天——可能真的快來了! ! !
近日,研究員Pablo Villalobos等人一篇名為《我們會用完資料嗎?機器學習中資料集縮放的限制分析》的論文,發表在了arXiv。
他們根據先前對資料集大小趨勢的分析,預測了語言和視覺領域資料集大小的成長,估計了未來幾十年可用未標記資料總存量的發展趨勢。
他們的研究顯示:最早在2026年,高品質語言資料就將全部消耗殆盡!機器學習發展的速度也將因此而放緩。實在不容樂觀。
兩方法雙管齊下,結果不那麼樂觀
這篇論文的研究團隊由11位研究員和3位顧問組成,成員遍布世界各地,致力於縮小AI技術發展與AI策略之間的差距,並為AI安全的關鍵決策者提供建議。
Chinchilla是DeepMind的研究人員提出的一種新型預測計算最佳化模型。
實際上,先前在對Chinchilla進行實驗時,就曾有研究員提出「訓練資料很快就會成為擴展大型語言模型的瓶頸」。
因此他們分析了用於自然語言處理和電腦視覺的機器學習資料集大小的增長,並使用了兩種方法進行推斷:使用歷史增長率,並為未來預測的計算預算估計計算最佳資料集大小。
在此之前,他們一直在收集有關機器學習輸入趨勢的數據,包括一些訓練數據等,也透過估計未來幾十年互聯網上可用未標記數據的總存量,來調查資料使用成長。
由於歷史預測趨勢可能會受過去十年計算量異常增長的“誤導”,研究團隊還使用了Chinchilla縮放定律,來估計未來幾年的資料集大小,提升計算結果的準確性。
最終,研究人員使用一系列機率模型估計未來幾年英語語言和圖像資料的總存量,並比較了訓練資料集大小和總資料庫存的預測,結果如下圖所示。
這表示資料集的成長速度將遠快於資料存量。
因此,如果當前趨勢繼續保持下去,資料存量被用光將是不可避免的。下表則顯示了預測曲線上每個交叉點的中位數耗盡年數。
高品質的語言資料庫存最快可能在2026年之前就被用盡。
相較之下,低品質的語言資料和影像資料情況略好:前者將在2030年至2050年間用光,後者將在2030年至2060年之間。
在論文的最後,研究團隊給出結論:如果數據效率沒有大幅提高或新的數據來源可用,當前依賴巨大數據集不斷膨脹的機器學習模型,它的增長趨勢很可能會放緩。
網友:杞人憂天,Efficient Zero了解一下
不過在這篇文章的留言區裡,大多數網友卻認為作者杞人憂天。
Reddit上,一位名為ktpr的網友表示:
「自我監督學習有啥毛病麼?如果任務指定得好,它甚至可以組合擴展資料集大小。」
#名為lostmsn的網友則更加不客氣。他直言:
「Efficient Zero都不了解一下?我認為作者已經嚴重脫離時代了。」
Efficient Zero是一種能高效採樣的強化學習演算法,由清華大學的高陽博士提出。
在資料量有限的情況下,Efficient Zero一定程度上解決了強化學習的效能問題,並在演算法通用測試基準Atari Game上獲得了驗證。
在這篇論文作者團隊的部落格上,就連他們自己也坦言:
「我們所有的結論都基於不切實際的假設,即當前機器學習數據使用和生產的趨勢將繼續保持下去,並且數據效率不會有重大提升。」
####################### 「一個更可靠的模型應該考慮到機器學習資料效率的提高、合成資料的使用以及其他演算法和經濟因素。」############「因此就實際情況來說,這種分析有嚴重的限制。模型的不確定性非常高。」############「不過總體而言,我們仍認為由於缺乏訓練數據,到2040年機器學習模型的擴展有大約有20%的可能性會顯著放緩。」#######
以上是全球優質語言資料存量告急,不容忽視的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程:第一步:訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件:sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步:定義自定義日誌格式找到或

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌,您可以深入了解內存使用情況和垃圾回收(GC)行為,從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏:1.GC日誌分析首先,啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項:-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌(gc.log),包含GC類型、回收對像大小和時間等信息。分析gc.log

在Debian系統中,readdir函數用於讀取目錄內容,但其返回的順序並非預先定義的。要對目錄中的文件進行排序,需要先讀取所有文件,再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序:#include#include#include#include//自定義比較函數,用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系統中,readdir系統調用用於讀取目錄內容。如果其性能表現不佳,可嘗試以下優化策略:精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄,降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制,定期或在目錄內容變更時更新緩存,減少對readdir的頻繁調用。內存緩存(如Memcached或Redis)或本地緩存(如文件或數據庫)均可考慮。採用高效數據結構:如果自行實現目錄遍歷,選擇更高效的數據結構(例如哈希表而非線性搜索)存儲和訪問目錄信

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則,並利用Syslog記錄防火牆活動。方法一:使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則:sudoiptables-L-n-v允許特定IP訪問:例如,允許IP地址192.168.1.100訪問80端口:sudoiptables-AINPUT-ptcp--dport80-s192.16

Debian系統中的readdir函數是用於讀取目錄內容的系統調用,常用於C語言編程。本文將介紹如何將readdir與其他工具集成,以增強其功能。方法一:C語言程序與管道結合首先,編寫一個C程序調用readdir函數並輸出結果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務,它幫助管理員監控和分析系統活動,從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括:集中收集和管理日誌消息;支持多種日誌輸出格式和目標位置(例如文件或網絡);提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝:sudoaptupdatesud

Debian系統中,Nginx的訪問日誌和錯誤日誌默認存儲位置如下:訪問日誌(accesslog):/var/log/nginx/access.log錯誤日誌(errorlog):/var/log/nginx/error.log以上路徑是標準DebianNginx安裝的默認配置。如果您在安裝過程中修改過日誌文件存放位置,請檢查您的Nginx配置文件(通常位於/etc/nginx/nginx.conf或/etc/nginx/sites-available/目錄下)。在配置文件中
