目錄
1.更好地了解數據
2.保持資料意識,以避免失敗
3.錯誤數據過多、正確數據不足在扼殺AI項目
首頁 科技週邊 人工智慧 AI專案這些致命錯誤,你都犯過嗎?

AI專案這些致命錯誤,你都犯過嗎?

Apr 20, 2023 am 08:10 AM
專案 ai 數據

譯者| 布加迪

審校| 孫淑娟

#由於資料是人工智慧(AI)的核心,因此AI和機器學習(ML)系統需要足夠的優質數據來學習也就不足為奇了。一般需要大量優質數據,對於監督學習方法特別如此,才能正確訓練AI或ML系統。具體需要多少數據,取決於所實施的AI的模式、所使用的演算法以及內部數據與第三方數據等其他因素。比如說,神經網路需要大量資料來訓練,而決策樹或貝葉斯分類器不需要那麼多資料就能獲得高品質結果。

於是,你可能認為數據越多越好,對吧?請再想想。擁有大量數據(甚至EB級數據)的組織意識到,擁有更多數據並不代表如期望的那樣可以解決問題。確實,數據越多,問題越多。擁有的資料越多,需要清理和準備的資料就越多,需要標記和管理的資料就越多,需要加強安全、做好保護、減少偏差及其他措施的資料就越多。當開始增加資料量時,小專案會迅速變成大專案。事實上,大量數據往往會扼殺項目。

很顯然,識別業務問題與整理資料以解決該問題之間缺少的步驟是,確定需要哪些資料、實際需要其中的多少資料。需要足夠的數據,但切忌過多:不多不少剛剛好。遺憾的是,組織常常還沒有了解數據,就貿然上手AI計畫。組織要回答許多問題,包括弄清楚資料在哪裡、已經有多少資料、處於什麼狀態、資料的哪些特徵最重要、內外資料的使用、資料存取難題、增強現有資料方面的要求,以及其他關鍵因素和問題。如果不回答這些問題,AI專案可能會失敗,甚至淹沒在資料汪洋中。

1.更好地了解數據

為了了解自己需要多少數據,先要了解數據在AI項目的結構中所處的位置。有一種直觀的方式可幫助我們了解從數據中獲得的不斷增加的價值,那就是「DIKUW金字塔」(有時也叫「DIKW 金字塔」),它顯示了數據基礎如何透過資訊、知識、理解和智慧,幫助獲取更大的價值。

憑藉著堅實的資料基礎,你可以在下一個資訊層獲得更深的洞察力,這可以幫助你回答有關該資料的基本問題。一旦在數據之間建立了基本的聯繫以獲得資訊洞察力,就可以在該資訊中找到模式,了解各部分資訊如何連接在一起,從而獲得更深入的洞察力。組織可以在知識層的基礎上,進一步了解這些模式為何會出現,以獲得更多價值,幫助了解底層模式。最後,你可以在智慧層透過深入了解資訊決策的因果關係,從資訊中獲得最大的價值。

最近的這股AI浪潮最關注的是知識層,因為機器學習在資訊層之上提供了辨識模式的洞察力。遺憾的是,機器學習在理解層遇到了瓶頸,因為找出模式不足以進行推理。我們有機器學習,卻沒有了解模式為何會出現的機器推理。每當你與聊天機器人互動時,都能看到這個限制。雖然基於機器學習的自然語言處理(NLP)非常擅長理解人的語音、推測意圖,但它在試圖理解和推理時遇到了限制。比如說,如果你問語音助理明天要不要穿雨衣,它不明白你在問天氣。人類要向機器提供這種洞察力,因為語音助理不知道雨實際上是什麼。

2.保持資料意識,以避免失敗

#大數據已教導我們如何處理大量資料。不僅涉及資料如何存儲,還涉及如何處理、操作和分析所有這些資料。機器學習能夠處理組織收集的種種不同類型的非結構化數據、半結構化數據或結構化數據,從而增添了更多的價值。的確,最近的這股AI浪潮其實是大數據驅動的分析浪潮。

但正是因為這個原因,有些組織在AI方面遭遇重創。它們不是從以數據為中心的角度運行AI項目,而是專注於功能方面。為了駕馭AI專案並避免致命錯誤,組織不僅要更好地理解AI和機器學習,還要更好地理解大數據的幾個「V」。這不僅關乎有多少數據,還關乎數據的性質。大數據的其中幾個V包括:

  • 數量:擁有的大數據的絕對數量。
  • 速度:大數據變化的速度。成功運用AI意味著將AI運用於高速資料。
  • 多樣性:資料可以有多種不同的格式,包括資料庫等結構化資料、發票等半結構化資料以及電子郵件、影像和視訊檔案等非結構化資料。成功的AI系統可以處理這種多樣性。
  • 真實性:這是指數據的品質和準確性以及你對該數據的信任程度。垃圾進垃圾出,在數據驅動的AI系統中尤其如此。因此,成功的AI系統需要能夠處理變化很大的資料品質。

憑藉著數十年來管理大數據專案的經驗,AI方面取得成功的組織主要在大數據方面取得了成功。那些目睹AI專案失敗的組織常常以應用程式開發的思維來解決AI問題。

3.錯誤數據過多、正確數據不足在扼殺AI項目

#雖然AI項目起步是正確的,但缺乏必要的數據以及缺乏了解、未解決實際問題在扼殺AI項目。組織在沒有真正了解所需的數據和數據品質的情況下繼續前進,這帶來了真正的挑戰。

組織犯下這個資料錯誤的原因之一是,除了使用敏捷或應用程式開發方法外,它們在進行AI專案時沒有任何真正的方法。然而成功的組織已意識到,使用以數據為中心的方法將數據理解作為專案方法的第一個階段。 CRISP-DM方法已經存在了20多年,它將資料理解指定為確定業務需求後接下來要做的事情。基於CRISP-DM,並結合敏捷方法,AI認知專案管理(CPMAI)方法在第二個階段需要資料理解。其他成功的方法同樣需要在專案早期理解數據,因為AI專案畢竟是數據專案。如果在不了解數據的情況下開展項目,如何在數據基礎上建立成功的項目?這肯定是你要避免的致命錯誤。

原文連結:https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your -ai-projects/?sh=352955946b54

#

以上是AI專案這些致命錯誤,你都犯過嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1246
24
如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

See all articles