Bootstrapping演算法,指的就是利用有限的樣本資料經由多次重複抽樣,重新建立起足以代表母體樣本分佈的新樣本。
bootstrapping的運用是基於許多統計假設,因此取樣的準確度會影響假設的成立與否。 (推薦學習:Bootstrap影片教學)
統計學中,bootstrapping可以指依賴重置隨機抽樣的一切試驗。 bootstrapping可以用來計算樣本估計的準確性。對於一個採樣,我們只能計算出某個統計量(例如平均數)的一個取值,無法知道平均數統計量的分佈。但是透過自助法(自舉法)我們可以模擬出平均值統計量的近似分佈。有了分佈很多事情就可以做了(比如說有你推出的結果來進而推測實際總體的情況)。
bootstrapping方法的實作很簡單,假設抽取的樣本大小為n:
在原始樣本中有放回的抽樣,抽取n次。每抽一次形成一個新的樣本,重複操作,形成許多新樣本,透過這些樣本就可以計算出樣本的一個分佈。新樣本的數量通常是1000-10000。如果計算成本很小,或對精度要求比較高,就會增加新樣本的數量。
優點:簡單又容易操作。
缺點:bootstrapping的運用是基於許多統計假設,因此假設的成立與否會影響取樣的準確性。
機器學習中,Bootstrap 方法指的是藉助替換的隨機取樣,它是一個重採樣,允許模型或演算法更好地理解存在於其中的偏差、方差和特徵。資料的採樣允許重採樣包含不同的偏向,然後將其作為一個整體進行包含。如圖 1 所示,其中每個樣本群有不同的部分,而且各不相同。接著這會影響到資料集的整體平均值、標準差和其他描述性指標。反過來,它可以發展出更多穩健的模型。
Bootstrapping 同樣適用傾向於過度擬合的小資料集。
使用 Bootstrap 的原因是它可以測試解的穩定性。使用多個樣本資料集測試多個模型可以提高穩健性。或許一個樣本資料集的平均值比其他資料集大,或是標準差不同。這種方式可以識別出過擬合且未使用不同變異數資料集進行測試的模型。
使用
Bootstrapping 越來越普遍的原因之一是運算能力的提升。出現比之前更多次數的重排列、重採樣。 Bagging 和 Boosting 都使用 Bootstrapping
更多Bootstrap相關技術文章,請造訪Bootstrap教學欄位學習!
以上是bootstrapping是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!