什麼是決策樹演算法?
英文名字: Decision Tree
決策樹是一種典型的分類方法,首先對資料進行處理,利用歸納演算法產生可讀的規則和決策樹,然後使用決策對新資料進行分析。本質上決策樹是透過一系列規則對資料進行分類的過程。
決策樹是一種監督式學習方法,主要用於分類和迴歸。 演算法的目標是透過推斷資料特徵,學習決策規則從而創建一個預測目標變數的模型。
決策樹類似if-else結構,它的結果就是你要產生這樣一個可以從樹根開始不斷判斷選擇到葉子節點的樹。 但這裡的if-else判斷條件不是人工設置,而是電腦根據我們提供的演算法自動產生的。
決策樹組成元素
#決策點
是對幾個可能方案的選擇,即最後選擇的最佳方案。如果決策屬於多層決策,則決策樹的中間可以有多個決策點,以決策樹根部的決策點為最終決策方案。
狀態節點
代表備選方案的經濟效果(期望值),透過各狀態節點的經濟效果的對比,依照一定的決策標準就可以選出最佳方案。由狀態節點引出的分支稱為機率枝,機率枝的數目表示可能出現的自然狀態數目每個分枝上要註明該狀態出現的機率。
結果節點
將每個方案在各種自然狀態下所取得的損益值標註於結果節點的右端
決策樹組優缺點
決策樹優勢
簡單易懂,原理清晰,決策樹可以實現視覺化
推理過程很容易理解,決策推理過程可以表示成if-else形式
推理過程完全依賴屬性變數的取值特徵
#可自動忽略目標變數沒有貢獻的屬性變量,也為判斷屬性變數的重要性,減少變數的數目提供參考
決策樹劣勢
#可能會建立過於複雜的規則,即過度擬合。
決策樹有時是不穩定的,因為資料微小的變動,可能會產生完全不同的決策樹。
學習最佳決策樹是一個NP完全問題。 所以,實際決策樹學習演算法是基於試探演算法,例如在每個節點實現局部最優值的貪心演算法。 這樣的演算法是無法保證回傳一個全域最優的決策樹。可以透過隨機選擇特徵和樣本來訓練多個決策樹來緩解這個問題。
有些問題學習起來非常困難,因為決策樹很難表達。如:異或問題、奇偶校驗或多路復用器問題
如果有些因素佔據支配地位,決策樹是有偏的。因此建議在擬合決策樹之前先平衡資料的影響因子。
決策樹常見演算法
決策樹的演算法有很多,有CART、ID3、C4.5、C5.0等,其中ID3、C4.5、 C5.0都是基於資訊熵的, 而CART採用的是類似熵的指數作為分類決策,形成決策樹後之後還要進行剪枝。
熵(Entropy):系統的凌亂程度
ID3演算法
ID3演算法是一種分類決策樹演算法。他透過一連串的規則,將資料最後分類成決策樹的形式,分類的根據是熵。
ID3演算法是一種經典的決策樹學習演算法,由Quinlan提出。 ID3演算法的基本思想是,以資訊熵為度量,用於決策樹節點的屬性選擇,每次優先選取資訊量最多的屬性,亦即能使熵值變為最小的屬性,以構造一顆熵值下降最快的決策樹,到葉節點處的熵值為0。此時,每個葉子節點對應的實例集中的實例屬於 同一類別。
透過ID3演算法來實現客戶流失的預警分析,找出客戶流失的特徵,以幫助電信公司有針對性地改善客戶關係,避免客戶流失
利用決策樹方法進行資料探勘,一般有下列步驟:資料預處理、決策樹探勘操作,模式評估與應用。
C4.5演算法
C4.5是ID3的進一步延伸,透過將連續屬性離散化,去除了特徵的限制。 C4.5將訓練樹轉換為一系列if-then的語法規則。可確定這些規則的準確性,從而決定哪些應該被採用。如果去掉某項規則,準確度能提高,則應該實行修剪。
C4.5與ID3在核心的演算法是一樣的,但是有一點所採用的辦法是不同的,C4.5採用了信息增益率作為劃分的根據,克服了ID3演算法中採用信息增益劃分導致屬性選擇偏向取值多的屬性。
C5.0演算法
C5.0較C4.5使用較小的內存,建立較小的決策規則,更加準確。
CART算法
分类与回归树(CART——Classification And Regression Tree)) 是一种非常有趣并且十分有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。 分类与回归树CART 模型最早由Breiman 等人提出,已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。由CART 模型构建的预测树在很多情况下比常用的统计方法构建的代数学预测准则更加准确,且数据越复杂、变量越多,算法的优越性就越显著。模型的关键是预测准则的构建,准确的。 定义: 分类和回归首先利用已知的多变量数据构建预测准则, 进而根据其它变量值对一个变量进行预测。在分类中, 人们往往先对某一客体进行各种测量, 然后利用一定的分类准则确定该客体归属那一类。例如, 给定某一化石的鉴定特征, 预测该化石属那一科、那一属, 甚至那一种。另外一个例子是, 已知某一地区的地质和物化探信息, 预测该区是否有矿。回归则与分类不同, 它被用来预测客体的某一数值, 而不是客体的归类。例如, 给定某一地区的矿产资源特征, 预测该区的资源量。
CART和C4.5很相似,但是它支持数值的目标变量(回归)且不产生决策规则。CART使用特征和阈值在每个节点获得最大的信息增益来构建决策树。
scikit-learn 使用的是 CART 算法
示例代码:
#! /usr/bin/env python#-*- coding:utf-8 -*-from sklearn import treeimport numpy as np# scikit-learn使用的决策树算法是CARTX = [[0,0],[1,1]] Y = ["A","B"] clf = tree.DecisionTreeClassifier() clf = clf.fit(X,Y) data1 = np.array([2.,2.]).reshape(1,-1)print clf.predict(data1) # 预测类别 print clf.predict_proba(data1) # 预测属于各个类的概率
好,就这些了,希望对你有帮助。
本文github地址:
20170619_决策树算法.md
欢迎补充
以上是什麼是決策樹演算法?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

一、多模態大模型的歷史發展上圖這張照片是1956年在美國達特茅斯學院舉行的第一屆人工智慧workshop,這次會議也被認為拉開了人工智慧的序幕,與會者主要是符號邏輯學屆的前驅(除了前排中間的神經生物學家PeterMilner)。然而這套符號邏輯學理論在隨後的很長一段時間內都無法實現,甚至到80年代90年代還迎來了第一次AI寒冬期。直到最近大語言模型的落地,我們才發現真正承載這個邏輯思維的是神經網絡,神經生物學家PeterMilner的工作激發了後來人工神經網絡的發展,也正因為此他被邀請參加了這個

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

寫在前面&筆者的個人理解在自動駕駛系統當中,感知任務是整個自駕系統中至關重要的組成部分。感知任務的主要目標是使自動駕駛車輛能夠理解和感知周圍的環境元素,如行駛在路上的車輛、路旁的行人、行駛過程中遇到的障礙物、路上的交通標誌等,從而幫助下游模組做出正確合理的決策和行為。在一輛具備自動駕駛功能的車輛中,通常會配備不同類型的信息採集感測器,如環視相機感測器、雷射雷達感測器以及毫米波雷達感測器等等,從而確保自動駕駛車輛能夠準確感知和理解周圍環境要素,使自動駕駛車輛在自主行駛的過程中能夠做出正確的決斷。目
