AI 工具訓練資料不足,但有 6 種解決方案

WBOY
發布: 2024-07-25 22:40:33
原創
648 人瀏覽過

人工智慧需要訓練數據,但數據是有限的。那麼,我們還能如何訓練人工智慧,使其不斷發展並對我們有用呢?

你可能認為網路及其資料是取之不盡用之不竭的資源,但人工智慧工具正在耗盡可供挖掘的資料。現在,別擔心,人工智慧的發展不會停止——仍有大量資料可供訓練人工智慧系統。

1 網路上總是有更多資料添加

簡而言之,人工智慧研究機構 Epoch 表示,用於訓練人工智慧的高品質資料可能會在 2026 年耗盡。

這裡的關鍵字是「可能」。每年添加到互聯網的數據量都在增加,因此在 2026 年之前可能會發生巨大的變化。不過,這是一個合理的估計——無論哪種方式,人工智慧系統在某個時候都會用完好的數據。

然而,我們應該記住,每年在線添加約 147 ZB 的數據(根據 Exploding Topics)。僅 1 ZB 就等於 1,000,000,000,000,000,000,000 位元資料。以實際價值計算(嗯,有點真實),這相當於超過 300 億部 4K 電影(真實,但深不可測)。人工智慧需要篩選的資訊量驚人。

儘管如此,人工智慧消耗資料的速度比人類創建資料的速度還要快…

2 人工智慧可能會忘記低品質資料

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

當然,並非所有 147 ZB 的資料都是好資料。它的內涵遠比表面看到的多得多。但據估計,到 2050 年,人工智慧也將耗盡低品質的語言資料。

路透社報道,曾經是世界上最大的圖片儲存庫之一的 Photobucket 正在洽談將其龐大的圖片庫授權給人工智慧培訓公司。影像資料已經訓練了 DALL-E 和 Midjourney 等系統,但即便如此,到 2060 年也可能耗盡。這裡還有一個更大的問題:Photobucket 保存了來自 2000 年代社交媒體平台(如 Myspace)的圖像,這意味著它們的標準不如當前攝影。這會導致數據品質低下。

Photobucket 並不孤單。 2024 年 2 月,Google與 Reddit 達成協議,允許這家搜尋巨頭在其人工智慧訓練中使用該社群媒體平台的用戶資料。其他社群媒體平台也正在提供用於人工智慧培訓目的的使用者資料;有些人用它來訓練內部人工智慧模型,例如 Meta 的 Llama。

然而,雖然可以從低品質數據中收集一些信息,但據報道微軟正在開發一種讓人工智慧有選擇地「忘記」數據的方法。這主要用於解決智慧財產權問題,但這也可能意味著工具可能會忘記從低品質資料集中學到的東西。

我們可以向人工智慧提供更多數據,而不必過於挑剔;然後,這些人工智慧系統可以挑選出最有益的學習內容。

3 語音識別開啟視訊和播客資料

迄今為止,輸入到人工智慧工具的資料主要包括文本,以及少量的圖像。毫無疑問,這種情況將會改變,而且很可能已經發生了,因為語音辨識軟體將意味著大量可用的視訊和播客也可以訓練人工智慧。

值得注意的是,OpenAI 使用 680,000 小時的多語言和多任務資料開發了開源自動語音識別 (ASR) 神經網路 Whisper。然後,OpenAI 將 YouTube 影片中超過一百萬小時的資訊輸入到其大型語言模型 GPT-4 中。

這是其他人工智慧系統的理想模板,這些系統使用語音識別來轉錄來自眾多來源的視頻和音頻,並透過其人工智慧模型運行該數據。

根據 Statista 的數據,每分鐘有超過 500 小時的影片上傳到 YouTube,這個數字自 2019 年以來一直保持相當穩定。這還不包括 Dailymotion 和 Podbean 等其他視訊和音訊平台。如果人工智慧能夠將注意力轉向像這樣的新資料集,那麼仍有大量資訊有待挖掘。

4 人工智慧在很大程度上堅持英語

這並不是我們能從 Whisper 學到的全部。 OpenAI 使用 117,000 小時的非英語音訊資料訓練模型。這尤其有趣,因為許多人工智慧系統主要使用英語或透過西方視角觀察其他文化進行訓練。

從本質上講,大多數工具都受到其創建者文化的限制。

以 ChatGPT 為例。 2022 年發布後不久,挪威卑爾根大學數位文化教授 Jill Walker Rettberg 嘗試了 ChatGPT 並得出結論:

「ChatGPT 對挪威文化了解不多。或者更確切地說,它對挪威文化的了解大概主要是從英語來源學到的…ChatGPT 明確符合美國的價值觀和法律。在許多情況下,這些都接近挪威和歐洲的價值觀,但情況可能並不總是如此。目前,許多人工智慧都被限制在一個庫中;如果獲得世界各地圖書館的鑰匙,他們就能成長。

5 家出版社可以幫助開發人工智慧

智慧財產權顯然是一個大問題,但一些出版商可以透過簽訂授權協議來幫助開發人工智慧。這意味著為工具提供來自書籍的高品質(即可靠的)數據,而不是從線上來源收集的潛在低品質資訊。

AI Tools Are Running Out of Training Data, but There Are 6 Solutions 事實上,據報道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考慮收購「五巨頭」出版社之一的 Simon & Schuster。這個想法是利用該公司發表的文獻來訓練 Meta 自己的人工智慧。該交易最終失敗,可能是由於該公司在未經作者事先同意的情況下處理知識產權存在道德灰色地帶。

顯然考慮的另一個選擇是購買新遊戲的個人許可權。這應該會引起創意人員的極大關注,但如果可用數據耗盡,這仍然是人工智慧工具開發的一種有趣方式。

6 合成數據是未來

所有其他解決方案仍然有限,但有一個選項可以讓人工智慧在未來蓬勃發展:合成數據。人們已經將其作為一種非常現實的可能性進行了研究。

那麼,什麼是合成資料呢?從這個意義上說,它是人工智慧創造的數據;正如人類創建數據一樣,這種方法將使人工智慧產生用於訓練目的的數據。

實際上,人工智慧可以創建令人信服的深度偽造影片。這個深度偽造影片可以回饋到人工智慧中,以便它可以從本質上是想像的場景中學習。畢竟,這是人類學習的一種主要方式:我們閱讀或觀看某些東西以了解周圍的世界。

人工智慧很可能已經消耗了合成資訊。網路上流傳的 Deepfakes 會傳播錯誤訊息和虛假訊息,因此當人工智慧系統掃描網路時,有些系統會受到虛假內容的影響,這是有道理的。

是的,這有陰險的一面。它也可能損害或限制人工智慧,強化和傳播這些工具所犯的錯誤。公司正在努力消除後一個問題;儘管如此,「人工智慧互相學習並犯錯」仍然是許多科幻噩夢場景的情節點。

7

人工智慧是有爭議的。它有很多缺點,但批評者忽略了它的好處。例如,審計和諮詢網路普華永道 [PDF] 表明,到 2030 年,人工智慧可為世界經濟貢獻高達 15.7 兆美元。

更重要的是,人工智慧已經在世界各地應用。您今天可能已經以某種形式使用過它,甚至可能沒有意識到。現在精靈已經從瓶子裡出來了,關鍵肯定是用可靠、高品質的數據來訓練它,這樣我們就可以正確地使用它。

人工智慧有它的優點和缺點。需要找到一個平衡點。

以上是AI 工具訓練資料不足,但有 6 種解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:makeuseof.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!