spss缺失值填補方法有哪些-常見問題-PHP中文網

首頁

常見問題

spss缺失值填補方法有哪些

醉折花枝作酒筹

May 18, 2021 pm 01:37 PM

spss

spss缺失值填補方法有：1、均值插補，用該屬性的眾數來補齊缺失的值；2、利用同類均值插補；3、極大似然估計，透過觀測資料的邊際分佈可以對未知參數進行極大似然估計；4、多重插補，根據某種選擇依據，選取最適合的插補值。

spss缺失值填補方法有哪些

本教學操作環境：windows7系統、SPSS 26.0版、Dell G3電腦。

1、平均值插補。資料的屬性分為定距型和非定距型。如果缺失值是定距型的，就以該屬性存在值的平均值來插補缺失的值；如果缺失值是非定距型的，就根據統計學中的眾數原理，用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

2、利用同類均值插補。同均值插補的方法都屬於單值插補，不同的是，它用層次聚類模型預測缺失變數的類型，再以該類型的平均值插補。假設X=（X1，X2...Xp）為資訊完全的變量，Y為存在缺失值的變數。

那麼先將X或其子集行聚類，再依缺失個案所屬類別來插補不同類別的平均值。如果在以後統計分析中還需以引入的解釋變數和Y做分析，那麼這種插補方法將在模型中引入自相關，給分析造成障礙。

3、極大似然估計（Max Likelihood ，ML）。在缺失類型為隨機缺失的條件下，假設模型對於完整的樣本是正確的，那麼透過觀測資料的邊際分佈可以對未知參數進行極大似然估計（Little and Rubin）。

這種方法也被稱為忽略缺失值的極大似然估計，對於極大似然的參數估計實際中常採用的計算方法是期望值最大化(Expectation Maximization，EM）。

4、多重插補（Multiple Imputation，MI）。多值插補的想法來自貝葉斯估計，認為待插補的值是隨機的，它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值，然後再加上不同的噪聲，形成多組可選插補值。根據某種選擇依據，選取最適合的插補值。

擴充資料

缺失值產生的原因很多，裝備故障、無法取得資訊、與其他欄位不一致、歷史原因等都可能產生缺失值。典型的處理方法是插值，插值之後的資料可看作服從特定機率分佈。另外，也可以刪除所有含缺失值的記錄，但這個操作也從側面變動了原始資料的分佈特徵。

對於缺失值的處理，從整體上來說分為刪除存在缺失值的個案和缺失值插補。對於主觀數據，人將影響數據的真實性，存在缺失值的樣本的其他屬性的真實值不能保證，那麼依賴於這些屬性值的插補也是不可靠的，所以對於主觀數據一般不推薦插補的方法。插補主要是針對客觀數據，它的可靠性有保證。

以上是spss缺失值填補方法有哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具