spss缺失值填補方法有:1、均值插補,用該屬性的眾數來補齊缺失的值;2、利用同類均值插補;3、極大似然估計,透過觀測資料的邊際分佈可以對未知參數進行極大似然估計;4、多重插補,根據某種選擇依據,選取最適合的插補值。
本教學操作環境:windows7系統、SPSS 26.0版、Dell G3電腦。
1、平均值插補。資料的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。
2、利用同類均值插補。同均值插補的方法都屬於單值插補,不同的是,它用層次聚類模型預測缺失變數的類型,再以該類型的平均值插補。假設X=(X1,X2...Xp)為資訊完全的變量,Y為存在缺失值的變數。
那麼先將X或其子集行聚類,再依缺失個案所屬類別來插補不同類別的平均值。如果在以後統計分析中還需以引入的解釋變數和Y做分析,那麼這種插補方法將在模型中引入自相關,給分析造成障礙。
3、極大似然估計(Max Likelihood ,ML)。在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麼透過觀測資料的邊際分佈可以對未知參數進行極大似然估計(Little and Rubin)。
這種方法也被稱為忽略缺失值的極大似然估計,對於極大似然的參數估計實際中常採用的計算方法是期望值最大化(Expectation Maximization,EM)。
4、多重插補(Multiple Imputation,MI)。多值插補的想法來自貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最適合的插補值。
擴充資料
缺失值產生的原因很多,裝備故障、無法取得資訊、與其他欄位不一致、歷史原因等都可能產生缺失值。典型的處理方法是插值,插值之後的資料可看作服從特定機率分佈。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始資料的分佈特徵。
對於缺失值的處理,從整體上來說分為刪除存在缺失值的個案和缺失值插補。對於主觀數據,人將影響數據的真實性,存在缺失值的樣本的其他屬性的真實值不能保證,那麼依賴於這些屬性值的插補也是不可靠的,所以對於主觀數據一般不推薦插補的方法。插補主要是針對客觀數據,它的可靠性有保證。
以上是spss缺失值填補方法有哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章!