如何提升數據品質更能滿足AI專案需求
譯者 | 崔皓
審校 | 孫淑娟
#開篇
今天社會,人工智慧的發展成為全球企業和政府關注的重點。然而,與人工智慧息息相關的另一個問題卻被忽略:數據品質差。
人工智慧演算法依賴可靠的數據來產生最佳結果——如果數據有偏差、不完整、不充分、甚至是不準確,會導致毀滅性的後果。
識別病患疾病的人工智慧系統是一個很好的例子,由於資料品質不高而導致不良後果。當數據不足時,這些系統會產生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用於診斷 Covid-19 的 400 多種工具進行的一項研究發現,由於使用了缺陷資料集導致 AI 產生的報告完全無法使用。
換句話說,如果數據不夠好,AI 計劃將對現實世界產生毀滅性的後果。
「夠好」的數據代表什麼?
關於什麼是「夠好」的數據,人們一直存在著巨大的爭論。有人說不存在足夠好的數據。另外一些人表示「太好」的數據會導致分析癱瘓(譯者:應該是指過擬合)——而 HBR 則直截了當地指出,如果糟糕的資訊會導致機器學習工具無法運作。
在WinPure,將足夠好的資料定義為「完整、準確、有效,可以放心地用於具有風險的業務流程中,資料等級取決於個人目標和業務環境。」
大多數公司在數據品質和治理方面飽受折磨,儘管他們都不會承認。這種折磨不斷增加專案的緊張感,讓他們不堪重負,可以想像他們正在承受部署人工智慧計畫以保持競爭優勢的巨大壓力。可悲的是,像髒數據這類問題都不可能成為董事會討論的議題,直到它導致專案失敗時才有人會關注。
糟糕的數據如何影響人工智慧系統?
當演算法以訓練資料為基礎來學習時,資料品質問題出現在流程的開始階段。例如,如果向 AI 演算法提供未經過濾的社群媒體數據,它會抽取濫用、種族主義評論和厭女的言論,如 Microsoft 的 AI 機器人所表現的那樣。最近,人工智慧無法檢測深色皮膚的人也被認為是訓練資料問題導致的。
這與資料品質有何關係?
缺乏資料治理、資料品質意識淡薄和孤立的資料視圖才是資料品質不佳的罪魁禍首。
該怎麼辦?
當企業意識到資料品質出現問題時,他們會對招募感到恐慌。透過盲目聘請顧問、工程師和分析師來診斷、清理數據,希望盡快解決問題。不幸的是,幾個月過去了,儘管花費了數百萬美元,但問題似乎並沒有消失。對數據品質問題採取下意識的方法幾乎沒有幫助。
真正的改變從基底層開始。
如果您希望您的 AI/ML 專案朝著正確的方向發展,請採取以下三個關鍵步驟。
認識並承認資料品質問題
首先,透過建立資料素養文化來評估資料品質。 Bill Schmarzo 是這方面的強大代言人,他建議使用設計思維來創造一種文化,讓每個人都能理解並為組織的數據目標和挑戰做出貢獻。
在當今的業務環境中,資料和資料品質不再是 IT 或資料團隊的唯一責任。業務用戶必須意識到髒數據問題以及不一致和重複的數據等問題。
因此,首先要讓資料品質培訓成為受到重視的組織工作,並使團隊能夠識別不良資料屬性。
透過下面的清單,您可以使用它來追蹤資料品質。
資料健康檢查表
- 如何擷取、儲存和管理資料?
- 有多少資料來源連接到您的中央資料庫,資料的傳播情況如何?
- 您的資料管理得如何?您是否實施了資料治理標準?有多少資料是結構化、半結構化或非結構化的?
- 與自動化資料管理相比,您在手動修復資料上花費了多少?在存取和處理數據時,您的團隊如何相互協調? IT和業務使用者之間是否經常發生內部衝突?
- 您的資料品質狀況如何?您的資料是否及時、完整、準確、獨特並遵循標準化規則?
制定符合品質指標的計畫
關於資料品質問題,企業經常犯錯。例如聘請資料分析師來完成日常的資料清理任務,而不是專注於規劃和策略工作。有些企業在沒有計劃的情況下使用資料管理工具來清理、重複資料刪除、合併和清除資料。不幸的是,工具和人才不能孤立地解決問題。滿足資料品質維度的策略才是解決問題的根本。
此策略必須解決資料收集、標記、處理以及數與AI/ML 項目相符的問題。例如,如果人工智慧招募計畫只選擇男性候選人擔任技術職位,那麼該計畫的培訓數據顯然是有偏見的、不完整的(沒有收集足夠的女性候選人數據)和不準確的。因此,這些數據不符合人工智慧專案的真正目的。
對資料品質的要求已經超越了清理和修復資料的日常任務。所以,需要在開始專案之前設定資料完整性和治理標準。它使專案免於陷入失敗的境地!
提出正確的問題並設定問責制度
對於「足夠好的資料或資料品質水準」沒有通用標準。相反,這一切都取決於企業的資訊管理系統、資料治理指南,以及團隊和業務目標的知識,甚至許多其他因素。
不過在啟動專案之前,有幾個問題要問團隊:
- 我們資訊的來源是什麼,資料收集的方法是什麼?
- 哪些問題會影響資料收集過程並威脅正面成果?
- 資料傳遞什麼訊息?它是否符合數據品質標準(即資訊準確、完全可靠和恆定)?
- 指定人員是否意識到資料品質和低品質的重要性?
- 是否定義了角色和職責?例如,誰需要維護定期資料清理計劃?誰負責建立主記錄?
- 數據是否符合目的?
提出正確的問題、分配正確的角色、實施資料品質標準並幫助團隊在問題出現之前應對挑戰!
總結
資料品質不只是修復錯字或錯誤那麼簡單。它確保人工智慧系統沒有歧視性、誤導性或不準確性。在啟動 AI 專案之前,有必要解決數據中的缺陷以應對數據品質的挑戰。此外,啟動組織範圍內的資料素養計劃,將每個團隊與整體目標連結起來。
譯者介紹
崔皓,51CTO社群編輯,資深架構師,擁有18年的軟體開發與架構經驗,10年分散式架構經驗。
原文標題:Is Your Data Good Enough for Your Machine Learning/AI Plans?,作者:Farah Kim
以上是如何提升數據品質更能滿足AI專案需求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

上週,在內部的離職潮和外部的口誅筆伐之下,OpenAI可謂是內憂外患:-侵權寡姐引發全球熱議-員工簽署“霸王條款”被接連曝出-網友細數奧特曼“七宗罪」闢謠:根據Vox獲取的洩漏資訊和文件,OpenAI的高級領導層,包括Altman在內,非常了解這些股權回收條款,並且簽署了它們。除此之外,還有一個嚴峻而迫切的問題擺在OpenAI面前——AI安全。最近,五名與安全相關的員工離職,其中包括兩名最著名的員工,「超級對齊」團隊的解散讓OpenAI的安全問題再次被置於聚光燈下。 《財星》雜誌報道稱,OpenA

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S
