目錄
1 網路上總是有更多資料添加
2 人工智慧可能會忘記低品質資料
3 語音識別開啟視訊和播客資料
4 人工智慧在很大程度上堅持英語
智慧財產權顯然是一個大問題,但一些出版商可以透過簽訂授權協議來幫助開發人工智慧。這意味著為工具提供來自書籍的高品質(即可靠的)數據,而不是從線上來源收集的潛在低品質資訊。
首頁 科技週邊 人工智慧 AI 工具訓練資料不足,但有 6 種解決方案

AI 工具訓練資料不足,但有 6 種解決方案

Jul 25, 2024 pm 10:40 PM

人工智慧需要訓練數據,但數據是有限的。那麼,我們還能如何訓練人工智慧,使其不斷發展並對我們有用呢?

你可能認為網路及其資料是取之不盡用之不竭的資源,但人工智慧工具正在耗盡可供挖掘的資料。現在,別擔心,人工智慧的發展不會停止——仍有大量資料可供訓練人工智慧系統。

1 網路上總是有更多資料添加

簡而言之,人工智慧研究機構 Epoch 表示,用於訓練人工智慧的高品質資料可能會在 2026 年耗盡。

這裡的關鍵字是「可能」。每年添加到互聯網的數據量都在增加,因此在 2026 年之前可能會發生巨大的變化。不過,這是一個合理的估計——無論哪種方式,人工智慧系統在某個時候都會用完好的數據。

然而,我們應該記住,每年在線添加約 147 ZB 的數據(根據 Exploding Topics)。僅 1 ZB 就等於 1,000,000,000,000,000,000,000 位元資料。以實際價值計算(嗯,有點真實),這相當於超過 300 億部 4K 電影(真實,但深不可測)。人工智慧需要篩選的資訊量驚人。

儘管如此,人工智慧消耗資料的速度比人類創建資料的速度還要快…

2 人工智慧可能會忘記低品質資料

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

當然,並非所有 147 ZB 的資料都是好資料。它的內涵遠比表面看到的多得多。但據估計,到 2050 年,人工智慧也將耗盡低品質的語言資料。

路透社報道,曾經是世界上最大的圖片儲存庫之一的 Photobucket 正在洽談將其龐大的圖片庫授權給人工智慧培訓公司。影像資料已經訓練了 DALL-E 和 Midjourney 等系統,但即便如此,到 2060 年也可能耗盡。這裡還有一個更大的問題:Photobucket 保存了來自 2000 年代社交媒體平台(如 Myspace)的圖像,這意味著它們的標準不如當前攝影。這會導致數據品質低下。

Photobucket 並不孤單。 2024 年 2 月,Google與 Reddit 達成協議,允許這家搜尋巨頭在其人工智慧訓練中使用該社群媒體平台的用戶資料。其他社群媒體平台也正在提供用於人工智慧培訓目的的使用者資料;有些人用它來訓練內部人工智慧模型,例如 Meta 的 Llama。

然而,雖然可以從低品質數據中收集一些信息,但據報道微軟正在開發一種讓人工智慧有選擇地「忘記」數據的方法。這主要用於解決智慧財產權問題,但這也可能意味著工具可能會忘記從低品質資料集中學到的東西。

我們可以向人工智慧提供更多數據,而不必過於挑剔;然後,這些人工智慧系統可以挑選出最有益的學習內容。

3 語音識別開啟視訊和播客資料

迄今為止,輸入到人工智慧工具的資料主要包括文本,以及少量的圖像。毫無疑問,這種情況將會改變,而且很可能已經發生了,因為語音辨識軟體將意味著大量可用的視訊和播客也可以訓練人工智慧。

值得注意的是,OpenAI 使用 680,000 小時的多語言和多任務資料開發了開源自動語音識別 (ASR) 神經網路 Whisper。然後,OpenAI 將 YouTube 影片中超過一百萬小時的資訊輸入到其大型語言模型 GPT-4 中。

這是其他人工智慧系統的理想模板,這些系統使用語音識別來轉錄來自眾多來源的視頻和音頻,並透過其人工智慧模型運行該數據。

根據 Statista 的數據,每分鐘有超過 500 小時的影片上傳到 YouTube,這個數字自 2019 年以來一直保持相當穩定。這還不包括 Dailymotion 和 Podbean 等其他視訊和音訊平台。如果人工智慧能夠將注意力轉向像這樣的新資料集,那麼仍有大量資訊有待挖掘。

4 人工智慧在很大程度上堅持英語

這並不是我們能從 Whisper 學到的全部。 OpenAI 使用 117,000 小時的非英語音訊資料訓練模型。這尤其有趣,因為許多人工智慧系統主要使用英語或透過西方視角觀察其他文化進行訓練。

從本質上講,大多數工具都受到其創建者文化的限制。

以 ChatGPT 為例。 2022 年發布後不久,挪威卑爾根大學數位文化教授 Jill Walker Rettberg 嘗試了 ChatGPT 並得出結論:

「ChatGPT 對挪威文化了解不多。或者更確切地說,它對挪威文化的了解大概主要是從英語來源學到的…ChatGPT 明確符合美國的價值觀和法律。在許多情況下,這些都接近挪威和歐洲的價值觀,但情況可能並不總是如此。目前,許多人工智慧都被限制在一個庫中;如果獲得世界各地圖書館的鑰匙,他們就能成長。

5 家出版社可以幫助開發人工智慧

智慧財產權顯然是一個大問題,但一些出版商可以透過簽訂授權協議來幫助開發人工智慧。這意味著為工具提供來自書籍的高品質(即可靠的)數據,而不是從線上來源收集的潛在低品質資訊。

AI Tools Are Running Out of Training Data, but There Are 6 Solutions 事實上,據報道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考慮收購「五巨頭」出版社之一的 Simon & Schuster。這個想法是利用該公司發表的文獻來訓練 Meta 自己的人工智慧。該交易最終失敗,可能是由於該公司在未經作者事先同意的情況下處理知識產權存在道德灰色地帶。

顯然考慮的另一個選擇是購買新遊戲的個人許可權。這應該會引起創意人員的極大關注,但如果可用數據耗盡,這仍然是人工智慧工具開發的一種有趣方式。

6 合成數據是未來

所有其他解決方案仍然有限,但有一個選項可以讓人工智慧在未來蓬勃發展:合成數據。人們已經將其作為一種非常現實的可能性進行了研究。

那麼,什麼是合成資料呢?從這個意義上說,它是人工智慧創造的數據;正如人類創建數據一樣,這種方法將使人工智慧產生用於訓練目的的數據。

實際上,人工智慧可以創建令人信服的深度偽造影片。這個深度偽造影片可以回饋到人工智慧中,以便它可以從本質上是想像的場景中學習。畢竟,這是人類學習的一種主要方式:我們閱讀或觀看某些東西以了解周圍的世界。

人工智慧很可能已經消耗了合成資訊。網路上流傳的 Deepfakes 會傳播錯誤訊息和虛假訊息,因此當人工智慧系統掃描網路時,有些系統會受到虛假內容的影響,這是有道理的。

是的,這有陰險的一面。它也可能損害或限制人工智慧,強化和傳播這些工具所犯的錯誤。公司正在努力消除後一個問題;儘管如此,「人工智慧互相學習並犯錯」仍然是許多科幻噩夢場景的情節點。

7

人工智慧是有爭議的。它有很多缺點,但批評者忽略了它的好處。例如,審計和諮詢網路普華永道 [PDF] 表明,到 2030 年,人工智慧可為世界經濟貢獻高達 15.7 兆美元。

更重要的是,人工智慧已經在世界各地應用。您今天可能已經以某種形式使用過它,甚至可能沒有意識到。現在精靈已經從瓶子裡出來了,關鍵肯定是用可靠、高品質的數據來訓練它,這樣我們就可以正確地使用它。

人工智慧有它的優點和缺點。需要找到一個平衡點。

以上是AI 工具訓練資料不足,但有 6 種解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
如何使用AGNO框架構建多模式AI代理? 如何使用AGNO框架構建多模式AI代理? Apr 23, 2025 am 11:30 AM

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya 火箭發射模擬和分析使用Rocketpy -Analytics Vidhya Apr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

DeepCoder-14b:O3-Mini和O1的開源競賽 DeepCoder-14b:O3-Mini和O1的開源競賽 Apr 26, 2025 am 09:07 AM

在AI社區的重大發展中,Agentica和AI共同發布了一個名為DeepCoder-14B的開源AI編碼模型。與OpenAI等封閉源競爭對手提供代碼生成功能

提示:chatgpt生成假護照 提示:chatgpt生成假護照 Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

跑道AI的Gen-4:AI蒙太奇如何超越荒謬 跑道AI的Gen-4:AI蒙太奇如何超越荒謬 Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來 蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來 Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

See all articles