什麼是資料探勘?
資料探勘(Data Mining)就是從大量的資料中,提取隱藏在其中的,事先不知道的、但潛在有用的資訊的過程。資料探勘的目標是建立一個決策模型,根據過去的行動資料來預測未來的行為。
資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。
資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘是資料庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的資料轉換為有用資訊的整個過程,該過程包括一系列轉換步驟,從資料的預處理到資料探勘結果的後處理。
資料探勘的起源
來自不同學科的研究者匯集在一起,開始著手開發可以處理不同資料類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和演算法之上,而在資料探勘領域達到高潮。
特別地,資料探勘利用了來自以下一些領域的想法:(1)來自統計學的抽樣、估計和假設檢定;(2)人工智慧、模式識別和機器學習的搜尋演算法建模技術和學習理論。
資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。
一些其他領域也扮演著重要的支撐角色。資料庫系統提供有效的儲存、索引和查詢處理支援。源自於高效能(平行)運算的技術在處理大量資料集方面常常是重要的。分散式技術也能幫助處理大量數據,當數據不能集中在一起處理時更是至關重要。
KDD(Knowledge Discovery from Database)
- ##資料清理
##消除噪音和不一致的資料;
資料整合 -
多種資料來源可以組合在一起;
##資料選擇 - 從資料庫中提取與分析任務相關的資料; 資料轉換
- 透過匯總或聚集操作,把資料變換並統一成適合挖掘的形式; 資料探勘
- 基本步驟,使用智慧方法擷取資料模式;
##模式評估
根據某種興趣度,識別代表知識的真正有趣的模式; -
知識表示
使用視覺化和知識表示技術,向使用者提供挖掘的知識。
#資料探勘方法論
#業務理解(business understanding)
- 從商業角度理解專案的目標和要求,接著把這些理解知識透過理論分析轉化為資料探勘可操作的問題,制定實現目標的初步規劃;
-
資料理解(data understanding)
資料理解階段開始於原始資料的收集,然後是熟悉資料、甄別資料品質問題、探索對資料的初步理解、發覺令人感興趣的子集以形成對探索資訊的假設; -
資料準備(data preparation)
資料準備階段指從最初原始資料中未加工的資料建構資料探勘所需資訊的活動。資料準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從來源系統根據維度分析的要求,取得所需的信息,需要對資料進行轉換、清洗、建構、整合等資料預處理工作; -
建模(modeling)
在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行調優,以達到最優值。通常對同一個資料探勘問題類型,會有多種建模技術。有些技術對資料形式有特殊的要求,常常需要重新回到資料準備階段; -
模型評估(evaluation)
在模型部署發布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據商業目標評估模型在實際商業情境中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業問題仍未充分考慮; -
模型部署(deployment)
模型完成後,由模型使用者(客戶)根據當時背景和目標完成情況,封裝滿足業務系統使用需求。
資料探勘任務
#通常,資料探勘任務分為下面兩大類。
預測任務。 這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變數(targetvariable)或因變數(dependentvariable), 而用來做預測的屬性稱說明變數(explanatoryvariable)或自變數(independentvariable)。
-
描述任務。其目標是導出概括資料中潛在聯繫的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。
預測建模(predictivemodeling) 涉及以說明變數函數的方式為目標變數建立模型。
有兩類預測建模任務:分類(classification),用於預測離散的目標變數;迴歸(regression),用於預測連續的目標變數。
例如,預測一個Web使用者是否會在網路書店買書是分類任務,因為該目標變數是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。
兩項任務目標都是訓練一個模型,使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。
關聯分析(association analysis) 用來發現描述資料中強關聯特徵的模式。
所發現的模式通常以蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起造訪的Web頁面、 理解地球氣候系統不同元素之間的連結等。
聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比, 屬於同一簇的觀測值相互之間盡可能類似。聚類可用於對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮資料等。
異常檢測(anomaly detection) 的任務是識別其特徵顯著不同於其他資料的觀測值。
這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常偵測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點換言之,一個好的異常偵測器必須具有高偵測率和低誤報率。
異常偵測的應用包括偵測詐騙、網路攻擊、疾病的不尋常模式、生態系統擾動等。
更多相關知識,請造訪:PHP中文網!
以上是什麼是資料探勘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

隨著大數據和資料探勘的興起,越來越多的程式語言開始支援資料探勘的功能。 Go語言作為一種快速、安全、高效的程式語言,也可以用於資料探勘。那麼,如何使用Go語言進行資料探勘呢?以下是一些重要的步驟和技術。數據獲取首先,你需要取得數據。這可以透過各種途徑實現,例如爬取網頁上的資訊、使用API取得資料、從資料庫讀取資料等等。 Go語言自備了豐富的HTTP

MySql是一款受歡迎的關聯式資料庫管理系統,廣泛應用於企業和個人的資料儲存和管理。除了儲存和查詢資料外,MySql還提供了一些功能,例如資料分析、資料探勘和統計,可以幫助使用者更好地理解和利用資料。數據在任何企業或組織中都是寶貴的資產,透過數據分析可以幫助企業做出正確的業務決策。 MySql可以透過多種方式進行資料分析和資料挖掘,以下是一些實用的技術和工具:使用

區別:1、「資料分析」得出的結論是人的智力活動結果,而「資料探勘」的結論是機器從學習集【或訓練集、樣本集】發現的知識規則;2、「數據分析」不能建立數學模型,需要人工建模,而「資料探勘」直接完成了數學建模。

隨著人工智慧和大數據技術的興起,越來越多的公司和業務開始關注如何對資料進行高效的儲存和處理。 Redis作為一種高效能的分散式記憶體資料庫,越來越受到人工智慧和資料探勘領域的關注。本文將從Redis的特性及其在人工智慧和資料探勘應用中的實踐做一個簡單介紹。 Redis是一種開源、高效能、可擴充的NoSQL資料庫。它支援多種資料結構、提供用於快取、訊息佇列和計數器等

隨著數據時代的到來,越來越多的數據被收集並用於分析和預測。時間序列資料是一種常見的資料類型,它包含了基於時間的一連串資料。用於預測這類資料的方法稱為時間序列預測技術。 Python是一種十分流行的程式語言,具有強大的資料科學和機器學習支持,因此它也是一種非常適合進行時間序列預測的工具。本文將介紹Python中一些常用的時間序列預測技巧,並提供一些在實際專案中

Apriori演算法是資料探勘領域中關聯規則探勘的常見方法,廣泛應用於商業智慧、行銷等領域。 Python作為一種通用的程式語言,也提供了多個第三方函式庫來實作Apriori演算法,本文將詳細介紹Python中Apriori演算法的原理、實作及應用。一、Apriori演算法原理在介紹Apriori演算法原理之前,先學習下兩個關聯規則挖掘中的概念:頻繁項集與支持度

使用BI工具的時候,常遇到的問題是:「不會SQL怎麼生產加工資料、不會演算法可不可以做挖掘分析?」而專業演算法團隊在做資料探勘時,資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作,也是提效的好方法。同時,對於專業數倉團隊來說,相同主題的數據內容面臨「重複建設,使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產,同主題不同內容的數據集?生產的資料集可不可以作為輸入重新參與資料建置? 1.DataWind可視化建模能力來了由火山引擎推出的BI平台Da

PHP是一種優秀的伺服器端腳本語言,廣泛應用於網站開發和資料處理等領域。隨著網路的快速發展,資料量的不斷增加,如何有效率地進行自動文字分類和資料探勘成為了一個重要的議題。本文將介紹在PHP中進行自動文字分類和資料探勘的方法和技巧。一、什麼是自動文字分類和資料探勘?自動文字分類是指根據文字內容自動將文字進行分類的過程,通常使用機器學習演算法進行實作。資料探勘是指