人工智慧需要訓練數據,但數據是有限的。那麼,我們還能如何訓練人工智慧,使其不斷發展並對我們有用呢?
你可能認為網路及其資料是取之不盡用之不竭的資源,但人工智慧工具正在耗盡可供挖掘的資料。現在,別擔心,人工智慧的發展不會停止——仍有大量資料可供訓練人工智慧系統。
簡而言之,人工智慧研究機構 Epoch 表示,用於訓練人工智慧的高品質資料可能會在 2026 年耗盡。
這裡的關鍵字是「可能」。每年添加到互聯網的數據量都在增加,因此在 2026 年之前可能會發生巨大的變化。不過,這是一個合理的估計——無論哪種方式,人工智慧系統在某個時候都會用完好的數據。
然而,我們應該記住,每年在線添加約 147 ZB 的數據(根據 Exploding Topics)。僅 1 ZB 就等於 1,000,000,000,000,000,000,000 位元資料。以實際價值計算(嗯,有點真實),這相當於超過 300 億部 4K 電影(真實,但深不可測)。人工智慧需要篩選的資訊量驚人。
儘管如此,人工智慧消耗資料的速度比人類創建資料的速度還要快…
當然,並非所有 147 ZB 的資料都是好資料。它的內涵遠比表面看到的多得多。但據估計,到 2050 年,人工智慧也將耗盡低品質的語言資料。
路透社報道,曾經是世界上最大的圖片儲存庫之一的 Photobucket 正在洽談將其龐大的圖片庫授權給人工智慧培訓公司。影像資料已經訓練了 DALL-E 和 Midjourney 等系統,但即便如此,到 2060 年也可能耗盡。這裡還有一個更大的問題:Photobucket 保存了來自 2000 年代社交媒體平台(如 Myspace)的圖像,這意味著它們的標準不如當前攝影。這會導致數據品質低下。
Photobucket 並不孤單。 2024 年 2 月,Google與 Reddit 達成協議,允許這家搜尋巨頭在其人工智慧訓練中使用該社群媒體平台的用戶資料。其他社群媒體平台也正在提供用於人工智慧培訓目的的使用者資料;有些人用它來訓練內部人工智慧模型,例如 Meta 的 Llama。
然而,雖然可以從低品質數據中收集一些信息,但據報道微軟正在開發一種讓人工智慧有選擇地「忘記」數據的方法。這主要用於解決智慧財產權問題,但這也可能意味著工具可能會忘記從低品質資料集中學到的東西。
我們可以向人工智慧提供更多數據,而不必過於挑剔;然後,這些人工智慧系統可以挑選出最有益的學習內容。
迄今為止,輸入到人工智慧工具的資料主要包括文本,以及少量的圖像。毫無疑問,這種情況將會改變,而且很可能已經發生了,因為語音辨識軟體將意味著大量可用的視訊和播客也可以訓練人工智慧。
值得注意的是,OpenAI 使用 680,000 小時的多語言和多任務資料開發了開源自動語音識別 (ASR) 神經網路 Whisper。然後,OpenAI 將 YouTube 影片中超過一百萬小時的資訊輸入到其大型語言模型 GPT-4 中。
這是其他人工智慧系統的理想模板,這些系統使用語音識別來轉錄來自眾多來源的視頻和音頻,並透過其人工智慧模型運行該數據。
根據 Statista 的數據,每分鐘有超過 500 小時的影片上傳到 YouTube,這個數字自 2019 年以來一直保持相當穩定。這還不包括 Dailymotion 和 Podbean 等其他視訊和音訊平台。如果人工智慧能夠將注意力轉向像這樣的新資料集,那麼仍有大量資訊有待挖掘。
這並不是我們能從 Whisper 學到的全部。 OpenAI 使用 117,000 小時的非英語音訊資料訓練模型。這尤其有趣,因為許多人工智慧系統主要使用英語或透過西方視角觀察其他文化進行訓練。
從本質上講,大多數工具都受到其創建者文化的限制。
以 ChatGPT 為例。 2022 年發布後不久,挪威卑爾根大學數位文化教授 Jill Walker Rettberg 嘗試了 ChatGPT 並得出結論:
5 家出版社可以幫助開發人工智慧「ChatGPT 對挪威文化了解不多。或者更確切地說,它對挪威文化的了解大概主要是從英語來源學到的…ChatGPT 明確符合美國的價值觀和法律。在許多情況下,這些都接近挪威和歐洲的價值觀,但情況可能並不總是如此。目前,許多人工智慧都被限制在一個庫中;如果獲得世界各地圖書館的鑰匙,他們就能成長。
7 人工智慧是有爭議的。它有很多缺點,但批評者忽略了它的好處。例如,審計和諮詢網路普華永道 [PDF] 表明,到 2030 年,人工智慧可為世界經濟貢獻高達 15.7 兆美元。 更重要的是,人工智慧已經在世界各地應用。您今天可能已經以某種形式使用過它,甚至可能沒有意識到。現在精靈已經從瓶子裡出來了,關鍵肯定是用可靠、高品質的數據來訓練它,這樣我們就可以正確地使用它。 人工智慧有它的優點和缺點。需要找到一個平衡點。
以上是AI 工具訓練資料不足,但有 6 種解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!