這是一個總是在機器學習最重要理論中名列前茅的概念。機器學習中的幾乎所有演算法(包括深度學習)都努力在偏差和變異數之間取得適當的平衡,這個圖清楚地解釋了二者的對立關係。
Gini(缺乏同質性的測量)和 Entropy(隨機性的度量)都是決策樹中節點不純度的量測。
對於這兩個概念更重要的是要了解它們之間的關係,以便能夠在給定的場景中選出正確的指標。
基尼不純度(係數)通常比熵更容易計算(因為熵涉及對數計算)。
精確度-召回曲線顯示了不同閾值的精確度和召回率之間的權衡。曲線下面積大代表高召回率和高精確度,其中高精準度與低誤報率相關,高召回率與低誤報率相關。
它可以幫助我們根據需要選擇正確的閾值。例如,如果我們的目標是減少類型 1 錯誤,我們需要選擇高精確度,而如果我們的目標是最小化類型 2 錯誤,那麼我們應該選擇一個閾值,使得召回率很高。
這就是為什麼下圖 Precision 在結束時有一個波動,而召回始終保持平穩的原因。
ROC 曲線是顯示分類模型在所有分類閾值下的表現的圖表。
這條曲線繪製了兩個參數:
真阳性率<br>误报率
此曲線下的面積(稱為 AUC),也可用作效能指標。 AUC 越高,模型越好。
用于K-means算法中最优簇数的选择。WCSS(簇内平方和)是给定簇中每个点与质心之间的平方距离之和。当我们用 K(簇数)值绘制 WCSS 时,该图看起来像一个肘部(弯头)。
随着聚类数量的增加,WCSS 值将开始下降。K = 1时WCSS值最大
它帮助我们在对高维数据执行主成分分析后,可视化每个主成分解释的变异百分比。为了选择正确数量的主成分来考虑我们的模型,我们通常会绘制此图并选择能够为我们提供足够好的总体方差百分比的值。
对于线性可分数据,我们可以进行线性回归或逻辑回归,二者都可以作为决策边界曲线/线。但是,在逻辑回归的情况下,由于通常只有 2 个类别,因此具有线性直线决策边界可能不起作用,在一条直线上值从低到高非常均匀地上升,因为它不够陡峭在值突然上升后会得到很多临界的高值或者低值,最终会错误分类。因此,"边界"区域,即概率从高到低转变的区域并不真正存在。所以一般情况下会应用 sigmoid 变换将其转换为 sigmoid 曲线,该曲线在极端情况下是平滑的,在中间几乎是线性的。
均值为0,标准差为1的特殊正态分布。
经验法则指出,按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。根据该规则,68% 的数据在一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内。10学生T分布T 分布(也称为学生 T 分布)是一系列分布,看起来几乎与正态分布曲线相同,只是更短和更宽/更胖。当我们有较小的样本时,我们使用 T分布而不是正态分布。样本量越大,t 分布越像正态分布。事实上,在 30 个样本之后,T 分布几乎与正态分布完全一样。
我們可能會遇到許多小而關鍵的概念,這些概念構成了我們做出決定或選擇正確模型的基礎。本文中提到的重要概念都可以透過相關的圖表來表示,這些概念是非常重要的,需要我們在看到其第一眼時就知道他的意義,如果你已經對上面的概念都掌握了,那麼可以試試看說明下圖代表了什麼:
以上是數據科學必知必會:10個重要概念+22張圖表意義的詳細內容。更多資訊請關注PHP中文網其他相關文章!