AI專案這些致命錯誤，你都犯過嗎？-人工智慧-PHP中文網

1.更好地了解數據

2.保持資料意識，以避免失敗

3.錯誤數據過多、正確數據不足在扼殺AI項目

首頁

科技週邊

人工智慧

AI專案這些致命錯誤，你都犯過嗎？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 20, 2023 am 08:10 AM

專案 ai 數據

譯者| 布加迪

審校| 孫淑娟

#由於資料是人工智慧（AI）的核心，因此AI和機器學習（ML）系統需要足夠的優質數據來學習也就不足為奇了。一般需要大量優質數據，對於監督學習方法特別如此，才能正確訓練AI或ML系統。具體需要多少數據，取決於所實施的AI的模式、所使用的演算法以及內部數據與第三方數據等其他因素。比如說，神經網路需要大量資料來訓練，而決策樹或貝葉斯分類器不需要那麼多資料就能獲得高品質結果。

於是，你可能認為數據越多越好，對吧？請再想想。擁有大量數據（甚至EB級數據）的組織意識到，擁有更多數據並不代表如期望的那樣可以解決問題。確實，數據越多，問題越多。擁有的資料越多，需要清理和準備的資料就越多，需要標記和管理的資料就越多，需要加強安全、做好保護、減少偏差及其他措施的資料就越多。當開始增加資料量時，小專案會迅速變成大專案。事實上，大量數據往往會扼殺項目。

很顯然，識別業務問題與整理資料以解決該問題之間缺少的步驟是，確定需要哪些資料、實際需要其中的多少資料。需要足夠的數據，但切忌過多：不多不少剛剛好。遺憾的是，組織常常還沒有了解數據，就貿然上手AI計畫。組織要回答許多問題，包括弄清楚資料在哪裡、已經有多少資料、處於什麼狀態、資料的哪些特徵最重要、內外資料的使用、資料存取難題、增強現有資料方面的要求，以及其他關鍵因素和問題。如果不回答這些問題，AI專案可能會失敗，甚至淹沒在資料汪洋中。

1.更好地了解數據

為了了解自己需要多少數據，先要了解數據在AI項目的結構中所處的位置。有一種直觀的方式可幫助我們了解從數據中獲得的不斷增加的價值，那就是「DIKUW金字塔」（有時也叫「DIKW 金字塔」），它顯示了數據基礎如何透過資訊、知識、理解和智慧，幫助獲取更大的價值。

憑藉著堅實的資料基礎，你可以在下一個資訊層獲得更深的洞察力，這可以幫助你回答有關該資料的基本問題。一旦在數據之間建立了基本的聯繫以獲得資訊洞察力，就可以在該資訊中找到模式，了解各部分資訊如何連接在一起，從而獲得更深入的洞察力。組織可以在知識層的基礎上，進一步了解這些模式為何會出現，以獲得更多價值，幫助了解底層模式。最後，你可以在智慧層透過深入了解資訊決策的因果關係，從資訊中獲得最大的價值。

最近的這股AI浪潮最關注的是知識層，因為機器學習在資訊層之上提供了辨識模式的洞察力。遺憾的是，機器學習在理解層遇到了瓶頸，因為找出模式不足以進行推理。我們有機器學習，卻沒有了解模式為何會出現的機器推理。每當你與聊天機器人互動時，都能看到這個限制。雖然基於機器學習的自然語言處理（NLP）非常擅長理解人的語音、推測意圖，但它在試圖理解和推理時遇到了限制。比如說，如果你問語音助理明天要不要穿雨衣，它不明白你在問天氣。人類要向機器提供這種洞察力，因為語音助理不知道雨實際上是什麼。

2.保持資料意識，以避免失敗

#大數據已教導我們如何處理大量資料。不僅涉及資料如何存儲，還涉及如何處理、操作和分析所有這些資料。機器學習能夠處理組織收集的種種不同類型的非結構化數據、半結構化數據或結構化數據，從而增添了更多的價值。的確，最近的這股AI浪潮其實是大數據驅動的分析浪潮。

但正是因為這個原因，有些組織在AI方面遭遇重創。它們不是從以數據為中心的角度運行AI項目，而是專注於功能方面。為了駕馭AI專案並避免致命錯誤，組織不僅要更好地理解AI和機器學習，還要更好地理解大數據的幾個「V」。這不僅關乎有多少數據，還關乎數據的性質。大數據的其中幾個V包括：

數量：擁有的大數據的絕對數量。
速度：大數據變化的速度。成功運用AI意味著將AI運用於高速資料。
多樣性：資料可以有多種不同的格式，包括資料庫等結構化資料、發票等半結構化資料以及電子郵件、影像和視訊檔案等非結構化資料。成功的AI系統可以處理這種多樣性。
真實性：這是指數據的品質和準確性以及你對該數據的信任程度。垃圾進垃圾出，在數據驅動的AI系統中尤其如此。因此，成功的AI系統需要能夠處理變化很大的資料品質。

憑藉著數十年來管理大數據專案的經驗，AI方面取得成功的組織主要在大數據方面取得了成功。那些目睹AI專案失敗的組織常常以應用程式開發的思維來解決AI問題。

3.錯誤數據過多、正確數據不足在扼殺AI項目

#雖然AI項目起步是正確的，但缺乏必要的數據以及缺乏了解、未解決實際問題在扼殺AI項目。組織在沒有真正了解所需的數據和數據品質的情況下繼續前進，這帶來了真正的挑戰。

組織犯下這個資料錯誤的原因之一是，除了使用敏捷或應用程式開發方法外，它們在進行AI專案時沒有任何真正的方法。然而成功的組織已意識到，使用以數據為中心的方法將數據理解作為專案方法的第一個階段。 CRISP-DM方法已經存在了20多年，它將資料理解指定為確定業務需求後接下來要做的事情。基於CRISP-DM，並結合敏捷方法，AI認知專案管理（CPMAI）方法在第二個階段需要資料理解。其他成功的方法同樣需要在專案早期理解數據，因為AI專案畢竟是數據專案。如果在不了解數據的情況下開展項目，如何在數據基礎上建立成功的項目？這肯定是你要避免的致命錯誤。

原文連結：https://www.forbes.com/sites/cognitiveworld/2022/08/20/are-you-making-these-deadly-mistakes-with-your -ai-projects/?sh=352955946b54

以上是AI專案這些致命錯誤，你都犯過嗎？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1253

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：