輕薄：pandas替代數據摘要（）-人工智慧-PHP中文網

導入大熊貓作為pd  

數據= {  
    “名稱”：[“愛麗絲”，“鮑勃”，“ Charlie”，“ David”]，  
    “年齡”：[25，30，35，40]，  
    “城市”：[“紐約”，“洛杉磯”，“芝加哥”，“休斯頓”]，  
    “薪金”：[70000，80000，120000，90000]，  
}  

df = pd.dataframe（數據）  
打印（df.describe（））

登入後複製

輸出：

 年齡薪水  
計數4.000000 4.000000  
平均32.500000 90000.000000  
STD 6.454972 20000.000000  
最小25.000000 70000.000000  
25％28.750000 77500.000000  
50％32.500000 85000.000000  
75％36.250000 97500.000000  
最大40.000000 120000.000000

登入後複製

關鍵問題：

除非您明確調用描述（包括='all'），否則非數字列（名稱和城市）將被忽略。即使那樣，對於非數字列的輸出範圍仍然有限。

非數字數據的摘要有限

當使用非數字列使用include ='all'時，摘要是最小的。它僅顯示：

計數：非錯失值的數量。
唯一：唯一價值的計數。
頂部：最常見的值。
FREQ：最高值的頻率。

例子：

打印（df.describe（include =“ all”））

登入後複製

輸出：

 名稱城市工資  
計數4 4.0 4 4.000000  
獨特的4 nan 4 nan  
頂級愛麗絲寧紐約南  
弗雷克1 nan 1 nan  
平均NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 Nan 70000.000000  
25％NAN 28.8 NAN 77500.000000  
50％NAN 32.5 NAN 85000.000000  
75％NAN 36.2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000

登入後複製

關鍵問題：

使用過於基本的指標（例如，TOP，FREQ）總結了字符串列（名稱和城市）。
對字符串長度，模式或缺少數據比例沒有見解。

沒有有關丟失數據的信息

熊貓的描述（）並未明確顯示每列缺少數據的百分比。識別丟失的數據需要單獨的命令：

打印（df.isnull（）。sum（））

登入後複製

缺乏高級指標

describ（）提供的默認指標是基本的。對於數字數據，它顯示：

計數，平均值和標準偏差。
最小，最大和四分位數（25％，50％和75％）。

但是，它缺乏高級統計細節，例如：

峰度和偏度：數據分佈的指標。
異常檢測：沒有典型範圍以外的極值的指示。
自定義聚合：應用用戶定義的功能的靈活性有限。

數據可視化不佳

Defict（）輸出純文本摘要，雖然功能性，但在某些情況下並不具有視覺吸引力或易於解釋。可視化趨勢或分佈需要其他圖書館，例如matplotlib或seaborn。

示例：直方圖或箱形圖可以更好地表示分佈，但是Deforce（）不提供此類視覺功能。

輕薄開始

Skimpy是一個python庫，旨在簡化和增強探索性數據分析（EDA）。它提供了數據的詳細和簡潔摘要，有效地處理數字和非數字列。與熊貓的描述（）不同，輕薄的包括高級指標，缺少的數據見解以及更清潔，更直觀的輸出。這使其成為快速了解數據集，識別數據質量問題以及為更深入分析做準備的絕佳工具。

使用PIP安裝輕薄的：
在終端或命令提示符中運行以下命令：

 PIP安裝輕薄

登入後複製

驗證安裝：
安裝後，您可以通過將其導入Python腳本或Jupyter筆記本來驗證該輕薄安裝：

來自輕薄的進口略  
打印（“成功安裝了輕薄！”）

登入後複製

為什麼輕彈更好？

現在讓我們詳細探討為什麼使用輕薄的原因更好：

所有數據類型的統一摘要

輕薄的將所有數據類型都具有相同的重視對待，從而為單個統一表中的數字和非數字列提供了豐富的摘要。

例子：

來自輕薄的進口略  
導入大熊貓作為pd  

數據= {  
    “名稱”：[“愛麗絲”，“鮑勃”，“ Charlie”，“ David”]，  
    “年齡”：[25，30，35，40]，  
    “城市”：[“紐約”，“洛杉磯”，“芝加哥”，“休斯頓”]，  
    “薪金”：[70000，80000，120000，90000]，  
}  

df = pd.dataframe（數據）  
略（DF）

登入後複製

輸出：

輕薄生成了一個簡潔，結構良好的表，其中包含以下信息：

數字數據：計數，平均值，中值，標準偏差，最小，最大和四分位數。
非數字數據：唯一值，最頻繁的值（模式），缺失值和字符計數分佈。

輕薄：pandas替代數據摘要（）

內置處理丟失的數據

輕薄的自動在其摘要中自動突出顯示丟失數據，顯示每列的缺失值的百分比和計數。這消除了對df.isnull（）。sum（）等其他命令的需求。

為什麼這很重要：

幫助用戶預先確定數據質量問題。
鼓勵快速決定歸因或刪除丟失的數據。

高級統計見解

輕薄的範圍超出了基本描述性統計數據，包括提供更深入見解的其他指標：

峰度：表示分佈的“尾巴”。
偏度：數據分佈中的不對稱性。
離群標誌：突出顯示具有潛在異常值的列。

文本列的豐富摘要

對於諸如字符串之類的非數字數據，輕薄提供了Pandas描述（）無法匹配的詳細摘要：

字符串長度分佈：提供有關最小，最大和平均字符串長度的見解。
模式和變化：標識文本數據中的常見模式。
獨特的價值和模式：更清晰地描繪了文本多樣性。

文本列的示例輸出：

柱子	獨特的值	最常見的價值	模式計數	平均長度
姓名	4	愛麗絲	1	5.25
城市	4	紐約	1	7.50

緊湊和直觀的視覺效果

輕薄的使用顏色編碼和表格輸出易於解釋，尤其是對於大型數據集。這些視覺效果突出顯示：

缺少值。
分佈。
摘要統計數據，全部一眼。

這種視覺吸引力使Skimpy的摘要準備就緒，這對於向利益相關者報告發現特別有用。

對分類變量的內置支持

微薄為Pandas的描述（）沒有的分類數據提供了特定的指標，例如：

類別的分佈。
每個類別的頻率和比例。

這使得對涉及人口，地理或其他分類變量的數據集特別有價值。

使用輕薄的數據摘要

在下面，我們探索如何有效使用微薄的數據摘要。

步驟1：簡易導入並準備數據集

要使用輕薄的，您首先需要將其與數據集一起導入。輕薄與Pandas DataFrames無縫集成。

示例數據集：
讓我們使用一個包含數字，分類和文本數據的簡單數據集。

導入大熊貓作為pd
來自輕薄的進口略

＃示例數據集
數據= {
    “名稱”：[“愛麗絲”，“鮑勃”，“ Charlie”，“ David”]，
    “年齡”：[25，30，35，40]，
    “城市”：[“紐約”，“洛杉磯”，“芝加哥”，“休斯頓”]，
    “薪金”：[70000，80000，120000，90000]，
    “評分”：[4.5，無，4.7，4.8]，
}

df = pd.dataframe（數據）

登入後複製

步驟2：應用Skim（）函數

小巧的核心功能是Skim（）。當應用於數據框時，它提供了所有列的詳細摘要。

用法：

略（DF）

登入後複製

輕薄：pandas替代數據摘要（）

步驟3：解釋簡易的摘要

讓我們分解一下輕薄的輸出的含義：

柱子	數據類型	丟失的（％）	意思是	中位數	最小	最大限度	獨特的	最常見的價值	模式計數
姓名	文字	0.0％	-	-	-	-	4	愛麗絲	1
年齡	數字	0.0％	32.5	32.5	25	40	-	-	-
城市	文字	0.0％	-	-	-	-	4	紐約	1
薪水	數字	0.0％	90000	85000	70000	120000	-	-	-
等級	數字	25.0％	4.67	4.7	4.5	4.8	-	-	-

缺失值： “評分”列有25％的缺失值，表明潛在的數據質量問題。
數字列： “薪水”的平均值和中位數是接近的，表明大致對稱分佈，而“年齡”均勻分佈在其範圍內。
文本列： “城市”列有4個獨特的值，“紐約”最常見。

步驟4：專注於關鍵見解

輕薄對識別特別有用：

數據質量問題：
- 諸如“評分”之類的列中的缺少值。
- 通過Min，Max和四分位數等指標進行異常值。
分類數據中的模式：
- 諸如“城市”之類的專欄中最常見的類別。
字符串長度見解：
- 對於文本繁重的數據集，Skimpy提供了平均的字符串長度，有助於預處理任務，例如令牌化。

步驟5：自定義簡易輸出

輕薄允許一些靈活性根據您的需求調整其輸出：

子集列：僅通過將特定列作為數據框的子集傳遞來分析特定列：

脫脂（DF [[“年齡”，“薪金”]]）

登入後複製

專注於丟失的數據：快速確定丟失的數據百分比：

 Skim（df）.loc [：，[“列”，“丟失（％）”]]

登入後複製

使用輕薄的優點

多合一摘要：輕薄將數字和非數字見解鞏固到單個表中。
節省時間：無需編寫多行代碼以探索不同的數據類型。
提高的可讀性：乾淨，視覺上吸引人的摘要使識別趨勢和異常值變得更加容易。
大型數據集的有效效率：輕薄的，可以優化用於處理許多列的數據集，而不會壓倒用戶。

結論

小巧通過向所有類型的數據集提供詳細的，可讀的見解來簡化數據摘要。與熊貓的描述（）不同，它不僅限於數字數據，並提供了更豐富的摘要體驗。無論您是清潔數據，探索趨勢還是準備報告，輕薄的功能都使其成為數據專業人員必不可少的工具。

關鍵要點

輕薄的數字和非數字列無縫處理。
它提供了其他見解，例如缺失值和獨特的計數。
與熊貓描述（）相比，輸出格式更直觀和視覺吸引力。

常見問題

Q1。什麼是輕薄的？

答：這是一個python庫，旨在全面的數據摘要，為熊貓描述以外的見解（）提供了見解。

Q2。可以輕薄替換描述（）嗎？

答：是的，它提供了增強的功能，並可以有效地替換描述（）。

Q3。輕薄的支持大數據集嗎？

答：是的，它經過優化，可有效處理大型數據集。

Q4。如何安裝輕薄的？

答：使用PIP安裝：PIP安裝輕薄。

Q5。是什麼使輕薄的比描述更好（）？

答：它總結了所有數據類型，包括缺少的價值見解，並以更易於用戶友好的格式提供輸出。

以上是輕薄：pandas替代數據摘要（）的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

輕薄：pandas替代數據摘要（）

學習成果

目錄

為什麼熊貓描述（）還不夠？

默認關注數字數據

非數字數據的摘要有限

沒有有關丟失數據的信息

缺乏高級指標

數據可視化不佳

輕薄開始

為什麼輕彈更好？

所有數據類型的統一摘要

內置處理丟失的數據

高級統計見解

文本列的豐富摘要

緊湊和直觀的視覺效果

對分類變量的內置支持

使用輕薄的數據摘要

步驟1：簡易導入並準備數據集

步驟2：應用Skim（）函數

步驟3：解釋簡易的摘要

步驟4：專注於關鍵見解

步驟5：自定義簡易輸出

使用輕薄的優點

結論

關鍵要點

常見問題

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題