譯者| 布加迪
審校| 孫淑娟
#由於資料是人工智慧(AI)的核心,因此AI和機器學習(ML)系統需要足夠的優質數據來學習也就不足為奇了。一般需要大量優質數據,對於監督學習方法特別如此,才能正確訓練AI或ML系統。具體需要多少數據,取決於所實施的AI的模式、所使用的演算法以及內部數據與第三方數據等其他因素。比如說,神經網路需要大量資料來訓練,而決策樹或貝葉斯分類器不需要那麼多資料就能獲得高品質結果。
於是,你可能認為數據越多越好,對吧?請再想想。擁有大量數據(甚至EB級數據)的組織意識到,擁有更多數據並不代表如期望的那樣可以解決問題。確實,數據越多,問題越多。擁有的資料越多,需要清理和準備的資料就越多,需要標記和管理的資料就越多,需要加強安全、做好保護、減少偏差及其他措施的資料就越多。當開始增加資料量時,小專案會迅速變成大專案。事實上,大量數據往往會扼殺項目。
很顯然,識別業務問題與整理資料以解決該問題之間缺少的步驟是,確定需要哪些資料、實際需要其中的多少資料。需要足夠的數據,但切忌過多:不多不少剛剛好。遺憾的是,組織常常還沒有了解數據,就貿然上手AI計畫。組織要回答許多問題,包括弄清楚資料在哪裡、已經有多少資料、處於什麼狀態、資料的哪些特徵最重要、內外資料的使用、資料存取難題、增強現有資料方面的要求,以及其他關鍵因素和問題。如果不回答這些問題,AI專案可能會失敗,甚至淹沒在資料汪洋中。
為了了解自己需要多少數據,先要了解數據在AI項目的結構中所處的位置。有一種直觀的方式可幫助我們了解從數據中獲得的不斷增加的價值,那就是「DIKUW金字塔」(有時也叫「DIKW 金字塔」),它顯示了數據基礎如何透過資訊、知識、理解和智慧,幫助獲取更大的價值。
憑藉著堅實的資料基礎,你可以在下一個資訊層獲得更深的洞察力,這可以幫助你回答有關該資料的基本問題。一旦在數據之間建立了基本的聯繫以獲得資訊洞察力,就可以在該資訊中找到模式,了解各部分資訊如何連接在一起,從而獲得更深入的洞察力。組織可以在知識層的基礎上,進一步了解這些模式為何會出現,以獲得更多價值,幫助了解底層模式。最後,你可以在智慧層透過深入了解資訊決策的因果關係,從資訊中獲得最大的價值。
最近的這股AI浪潮最關注的是知識層,因為機器學習在資訊層之上提供了辨識模式的洞察力。遺憾的是,機器學習在理解層遇到了瓶頸,因為找出模式不足以進行推理。我們有機器學習,卻沒有了解模式為何會出現的機器推理。每當你與聊天機器人互動時,都能看到這個限制。雖然基於機器學習的自然語言處理(NLP)非常擅長理解人的語音、推測意圖,但它在試圖理解和推理時遇到了限制。比如說,如果你問語音助理明天要不要穿雨衣,它不明白你在問天氣。人類要向機器提供這種洞察力,因為語音助理不知道雨實際上是什麼。
#大數據已教導我們如何處理大量資料。不僅涉及資料如何存儲,還涉及如何處理、操作和分析所有這些資料。機器學習能夠處理組織收集的種種不同類型的非結構化數據、半結構化數據或結構化數據,從而增添了更多的價值。的確,最近的這股AI浪潮其實是大數據驅動的分析浪潮。
但正是因為這個原因,有些組織在AI方面遭遇重創。它們不是從以數據為中心的角度運行AI項目,而是專注於功能方面。為了駕馭AI專案並避免致命錯誤,組織不僅要更好地理解AI和機器學習,還要更好地理解大數據的幾個「V」。這不僅關乎有多少數據,還關乎數據的性質。大數據的其中幾個V包括:
憑藉著數十年來管理大數據專案的經驗,AI方面取得成功的組織主要在大數據方面取得了成功。那些目睹AI專案失敗的組織常常以應用程式開發的思維來解決AI問題。
#雖然AI項目起步是正確的,但缺乏必要的數據以及缺乏了解、未解決實際問題在扼殺AI項目。組織在沒有真正了解所需的數據和數據品質的情況下繼續前進,這帶來了真正的挑戰。
組織犯下這個資料錯誤的原因之一是,除了使用敏捷或應用程式開發方法外,它們在進行AI專案時沒有任何真正的方法。然而成功的組織已意識到,使用以數據為中心的方法將數據理解作為專案方法的第一個階段。 CRISP-DM方法已經存在了20多年,它將資料理解指定為確定業務需求後接下來要做的事情。基於CRISP-DM,並結合敏捷方法,AI認知專案管理(CPMAI)方法在第二個階段需要資料理解。其他成功的方法同樣需要在專案早期理解數據,因為AI專案畢竟是數據專案。如果在不了解數據的情況下開展項目,如何在數據基礎上建立成功的項目?這肯定是你要避免的致命錯誤。
原文連結:https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your -ai-projects/?sh=352955946b54
#以上是AI專案這些致命錯誤,你都犯過嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!