AI 工具訓練資料不足,但有 6 種解決方案
人工智慧需要訓練數據,但數據是有限的。那麼,我們還能如何訓練人工智慧,使其不斷發展並對我們有用呢?
你可能認為網路及其資料是取之不盡用之不竭的資源,但人工智慧工具正在耗盡可供挖掘的資料。現在,別擔心,人工智慧的發展不會停止——仍有大量資料可供訓練人工智慧系統。
1 網路上總是有更多資料添加
簡而言之,人工智慧研究機構 Epoch 表示,用於訓練人工智慧的高品質資料可能會在 2026 年耗盡。
這裡的關鍵字是「可能」。每年添加到互聯網的數據量都在增加,因此在 2026 年之前可能會發生巨大的變化。不過,這是一個合理的估計——無論哪種方式,人工智慧系統在某個時候都會用完好的數據。
然而,我們應該記住,每年在線添加約 147 ZB 的數據(根據 Exploding Topics)。僅 1 ZB 就等於 1,000,000,000,000,000,000,000 位元資料。以實際價值計算(嗯,有點真實),這相當於超過 300 億部 4K 電影(真實,但深不可測)。人工智慧需要篩選的資訊量驚人。
儘管如此,人工智慧消耗資料的速度比人類創建資料的速度還要快…
2 人工智慧可能會忘記低品質資料

當然,並非所有 147 ZB 的資料都是好資料。它的內涵遠比表面看到的多得多。但據估計,到 2050 年,人工智慧也將耗盡低品質的語言資料。
路透社報道,曾經是世界上最大的圖片儲存庫之一的 Photobucket 正在洽談將其龐大的圖片庫授權給人工智慧培訓公司。影像資料已經訓練了 DALL-E 和 Midjourney 等系統,但即便如此,到 2060 年也可能耗盡。這裡還有一個更大的問題:Photobucket 保存了來自 2000 年代社交媒體平台(如 Myspace)的圖像,這意味著它們的標準不如當前攝影。這會導致數據品質低下。
Photobucket 並不孤單。 2024 年 2 月,Google與 Reddit 達成協議,允許這家搜尋巨頭在其人工智慧訓練中使用該社群媒體平台的用戶資料。其他社群媒體平台也正在提供用於人工智慧培訓目的的使用者資料;有些人用它來訓練內部人工智慧模型,例如 Meta 的 Llama。
然而,雖然可以從低品質數據中收集一些信息,但據報道微軟正在開發一種讓人工智慧有選擇地「忘記」數據的方法。這主要用於解決智慧財產權問題,但這也可能意味著工具可能會忘記從低品質資料集中學到的東西。
我們可以向人工智慧提供更多數據,而不必過於挑剔;然後,這些人工智慧系統可以挑選出最有益的學習內容。
3 語音識別開啟視訊和播客資料
迄今為止,輸入到人工智慧工具的資料主要包括文本,以及少量的圖像。毫無疑問,這種情況將會改變,而且很可能已經發生了,因為語音辨識軟體將意味著大量可用的視訊和播客也可以訓練人工智慧。
值得注意的是,OpenAI 使用 680,000 小時的多語言和多任務資料開發了開源自動語音識別 (ASR) 神經網路 Whisper。然後,OpenAI 將 YouTube 影片中超過一百萬小時的資訊輸入到其大型語言模型 GPT-4 中。
這是其他人工智慧系統的理想模板,這些系統使用語音識別來轉錄來自眾多來源的視頻和音頻,並透過其人工智慧模型運行該數據。
根據 Statista 的數據,每分鐘有超過 500 小時的影片上傳到 YouTube,這個數字自 2019 年以來一直保持相當穩定。這還不包括 Dailymotion 和 Podbean 等其他視訊和音訊平台。如果人工智慧能夠將注意力轉向像這樣的新資料集,那麼仍有大量資訊有待挖掘。
4 人工智慧在很大程度上堅持英語
這並不是我們能從 Whisper 學到的全部。 OpenAI 使用 117,000 小時的非英語音訊資料訓練模型。這尤其有趣,因為許多人工智慧系統主要使用英語或透過西方視角觀察其他文化進行訓練。
從本質上講,大多數工具都受到其創建者文化的限制。
以 ChatGPT 為例。 2022 年發布後不久,挪威卑爾根大學數位文化教授 Jill Walker Rettberg 嘗試了 ChatGPT 並得出結論:
5 家出版社可以幫助開發人工智慧「ChatGPT 對挪威文化了解不多。或者更確切地說,它對挪威文化的了解大概主要是從英語來源學到的…ChatGPT 明確符合美國的價值觀和法律。在許多情況下,這些都接近挪威和歐洲的價值觀,但情況可能並不總是如此。目前,許多人工智慧都被限制在一個庫中;如果獲得世界各地圖書館的鑰匙,他們就能成長。
智慧財產權顯然是一個大問題,但一些出版商可以透過簽訂授權協議來幫助開發人工智慧。這意味著為工具提供來自書籍的高品質(即可靠的)數據,而不是從線上來源收集的潛在低品質資訊。

那麼,什麼是合成資料呢?從這個意義上說,它是人工智慧創造的數據;正如人類創建數據一樣,這種方法將使人工智慧產生用於訓練目的的數據。 實際上,人工智慧可以創建令人信服的深度偽造影片。這個深度偽造影片可以回饋到人工智慧中,以便它可以從本質上是想像的場景中學習。畢竟,這是人類學習的一種主要方式:我們閱讀或觀看某些東西以了解周圍的世界。 人工智慧很可能已經消耗了合成資訊。網路上流傳的 Deepfakes 會傳播錯誤訊息和虛假訊息,因此當人工智慧系統掃描網路時,有些系統會受到虛假內容的影響,這是有道理的。 是的,這有陰險的一面。它也可能損害或限制人工智慧,強化和傳播這些工具所犯的錯誤。公司正在努力消除後一個問題;儘管如此,「人工智慧互相學習並犯錯」仍然是許多科幻噩夢場景的情節點。
7 人工智慧是有爭議的。它有很多缺點,但批評者忽略了它的好處。例如,審計和諮詢網路普華永道 [PDF] 表明,到 2030 年,人工智慧可為世界經濟貢獻高達 15.7 兆美元。 更重要的是,人工智慧已經在世界各地應用。您今天可能已經以某種形式使用過它,甚至可能沒有意識到。現在精靈已經從瓶子裡出來了,關鍵肯定是用可靠、高品質的數據來訓練它,這樣我們就可以正確地使用它。 人工智慧有它的優點和缺點。需要找到一個平衡點。
以上是AI 工具訓練資料不足,但有 6 種解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

在AI社區的重大發展中,Agentica和AI共同發布了一個名為DeepCoder-14B的開源AI編碼模型。與OpenAI等封閉源競爭對手提供代碼生成功能

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息
