輕薄:pandas替代數據摘要()
數據摘要是任何數據分析工作流程中必不可少的第一步。儘管Pandas的Drescrip()函數一直是許多人的首選工具,但其功能僅限於數字數據,僅提供基本統計信息。輸入Skimpy,這是一個python庫,旨在為所有列類型提供詳細,視覺吸引力和全面的數據摘要。
在本文中,我們將探討為什麼輕彈是Pandas描述的值得替代的()。您將學習如何安裝和使用輕薄的功能,探索其功能,並通過示例將其輸出與Decording()進行比較。到最後,您將完全了解微薄的增強探索性數據分析(EDA)。
學習成果
- 了解熊貓的描述函數的局限性。
- 了解如何在Python中安裝和實現輕薄的。
- 通過示例探索輕薄的詳細輸出和見解。
- 比較Skimpy和Pandas的輸出()。
- 了解如何將輕薄的數據集成到您的數據分析工作流程中。
目錄
- 為什麼熊貓描述()還不夠?
- 輕薄開始
- 為什麼輕彈更好?
- 使用輕薄的數據摘要
- 使用輕薄的優點
- 結論
- 常見問題
為什麼熊貓描述()還不夠?
PANDAS中的Drescrive()函數被廣泛用於快速總結數據。儘管它是探索性數據分析(EDA)的強大工具,但其效用在幾個方面受到限制。這是其缺點以及用戶經常尋求諸如Skimpy之類的替代方案的詳細細分:
默認關注數字數據
默認情況下,descript()僅在數字列上工作,除非另有明確配置。
例子:
導入大熊貓作為pd 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(數據) 打印(df.describe())
輸出:
年齡薪水 計數4.000000 4.000000 平均32.500000 90000.000000 STD 6.454972 20000.000000 最小25.000000 70000.000000 25%28.750000 77500.000000 50%32.500000 85000.000000 75%36.250000 97500.000000 最大40.000000 120000.000000
關鍵問題:
除非您明確調用描述(包括='all'),否則非數字列(名稱和城市)將被忽略。即使那樣,對於非數字列的輸出範圍仍然有限。
非數字數據的摘要有限
當使用非數字列使用include ='all'時,摘要是最小的。它僅顯示:
- 計數:非錯失值的數量。
- 唯一:唯一價值的計數。
- 頂部:最常見的值。
- FREQ:最高值的頻率。
例子:
打印(df.describe(include =“ all”))
輸出:
名稱城市工資 計數4 4.0 4 4.000000 獨特的4 nan 4 nan 頂級愛麗絲寧紐約南 弗雷克1 nan 1 nan 平均NAN 32.5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 Min Nan 25.0 Nan 70000.000000 25%NAN 28.8 NAN 77500.000000 50%NAN 32.5 NAN 85000.000000 75%NAN 36.2 NAN 97500.000000 MAX NAN 40.0 NAN 120000.000000
關鍵問題:
- 使用過於基本的指標(例如,TOP,FREQ)總結了字符串列(名稱和城市)。
- 對字符串長度,模式或缺少數據比例沒有見解。
沒有有關丟失數據的信息
熊貓的描述()並未明確顯示每列缺少數據的百分比。識別丟失的數據需要單獨的命令:
打印(df.isnull()。sum())
缺乏高級指標
describ()提供的默認指標是基本的。對於數字數據,它顯示:
- 計數,平均值和標準偏差。
- 最小,最大和四分位數(25%,50%和75%)。
但是,它缺乏高級統計細節,例如:
- 峰度和偏度:數據分佈的指標。
- 異常檢測:沒有典型範圍以外的極值的指示。
- 自定義聚合:應用用戶定義的功能的靈活性有限。
數據可視化不佳
Defict()輸出純文本摘要,雖然功能性,但在某些情況下並不具有視覺吸引力或易於解釋。可視化趨勢或分佈需要其他圖書館,例如matplotlib或seaborn。
示例:直方圖或箱形圖可以更好地表示分佈,但是Deforce()不提供此類視覺功能。
輕薄開始
Skimpy是一個python庫,旨在簡化和增強探索性數據分析(EDA)。它提供了數據的詳細和簡潔摘要,有效地處理數字和非數字列。與熊貓的描述()不同,輕薄的包括高級指標,缺少的數據見解以及更清潔,更直觀的輸出。這使其成為快速了解數據集,識別數據質量問題以及為更深入分析做準備的絕佳工具。
使用PIP安裝輕薄的:
在終端或命令提示符中運行以下命令:
PIP安裝輕薄
驗證安裝:
安裝後,您可以通過將其導入Python腳本或Jupyter筆記本來驗證該輕薄安裝:
來自輕薄的進口略 打印(“成功安裝了輕薄!”)
為什麼輕彈更好?
現在讓我們詳細探討為什麼使用輕薄的原因更好:
所有數據類型的統一摘要
輕薄的將所有數據類型都具有相同的重視對待,從而為單個統一表中的數字和非數字列提供了豐富的摘要。
例子:
來自輕薄的進口略 導入大熊貓作為pd 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], } df = pd.dataframe(數據) 略(DF)
輸出:
輕薄生成了一個簡潔,結構良好的表,其中包含以下信息:
- 數字數據:計數,平均值,中值,標準偏差,最小,最大和四分位數。
- 非數字數據:唯一值,最頻繁的值(模式),缺失值和字符計數分佈。
內置處理丟失的數據
輕薄的自動在其摘要中自動突出顯示丟失數據,顯示每列的缺失值的百分比和計數。這消除了對df.isnull()。sum()等其他命令的需求。
為什麼這很重要:
- 幫助用戶預先確定數據質量問題。
- 鼓勵快速決定歸因或刪除丟失的數據。
高級統計見解
輕薄的範圍超出了基本描述性統計數據,包括提供更深入見解的其他指標:
- 峰度:表示分佈的“尾巴”。
- 偏度:數據分佈中的不對稱性。
- 離群標誌:突出顯示具有潛在異常值的列。
文本列的豐富摘要
對於諸如字符串之類的非數字數據,輕薄提供了Pandas描述()無法匹配的詳細摘要:
- 字符串長度分佈:提供有關最小,最大和平均字符串長度的見解。
- 模式和變化:標識文本數據中的常見模式。
- 獨特的價值和模式:更清晰地描繪了文本多樣性。
文本列的示例輸出:
柱子 | 獨特的值 | 最常見的價值 | 模式計數 | 平均長度 |
---|---|---|---|---|
姓名 | 4 | 愛麗絲 | 1 | 5.25 |
城市 | 4 | 紐約 | 1 | 7.50 |
緊湊和直觀的視覺效果
輕薄的使用顏色編碼和表格輸出易於解釋,尤其是對於大型數據集。這些視覺效果突出顯示:
- 缺少值。
- 分佈。
- 摘要統計數據,全部一眼。
這種視覺吸引力使Skimpy的摘要準備就緒,這對於向利益相關者報告發現特別有用。
對分類變量的內置支持
微薄為Pandas的描述()沒有的分類數據提供了特定的指標,例如:
- 類別的分佈。
- 每個類別的頻率和比例。
這使得對涉及人口,地理或其他分類變量的數據集特別有價值。
使用輕薄的數據摘要
在下面,我們探索如何有效使用微薄的數據摘要。
步驟1:簡易導入並準備數據集
要使用輕薄的,您首先需要將其與數據集一起導入。輕薄與Pandas DataFrames無縫集成。
示例數據集:
讓我們使用一個包含數字,分類和文本數據的簡單數據集。
導入大熊貓作為pd 來自輕薄的進口略 #示例數據集 數據= { “名稱”:[“愛麗絲”,“鮑勃”,“ Charlie”,“ David”], “年齡”:[25,30,35,40], “城市”:[“紐約”,“洛杉磯”,“芝加哥”,“休斯頓”], “薪金”:[70000,80000,120000,90000], “評分”:[4.5,無,4.7,4.8], } df = pd.dataframe(數據)
步驟2:應用Skim()函數
小巧的核心功能是Skim()。當應用於數據框時,它提供了所有列的詳細摘要。
用法:
略(DF)
步驟3:解釋簡易的摘要
讓我們分解一下輕薄的輸出的含義:
柱子 | 數據類型 | 丟失的 (%) | 意思是 | 中位數 | 最小 | 最大限度 | 獨特的 | 最常見的價值 | 模式計數 |
---|---|---|---|---|---|---|---|---|---|
姓名 | 文字 | 0.0% | - | - | - | - | 4 | 愛麗絲 | 1 |
年齡 | 數字 | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
城市 | 文字 | 0.0% | - | - | - | - | 4 | 紐約 | 1 |
薪水 | 數字 | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
等級 | 數字 | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
- 缺失值: “評分”列有25%的缺失值,表明潛在的數據質量問題。
- 數字列: “薪水”的平均值和中位數是接近的,表明大致對稱分佈,而“年齡”均勻分佈在其範圍內。
- 文本列: “城市”列有4個獨特的值,“紐約”最常見。
步驟4:專注於關鍵見解
輕薄對識別特別有用:
-
數據質量問題:
- 諸如“評分”之類的列中的缺少值。
- 通過Min,Max和四分位數等指標進行異常值。
-
分類數據中的模式:
- 諸如“城市”之類的專欄中最常見的類別。
-
字符串長度見解:
- 對於文本繁重的數據集,Skimpy提供了平均的字符串長度,有助於預處理任務,例如令牌化。
步驟5:自定義簡易輸出
輕薄允許一些靈活性根據您的需求調整其輸出:
- 子集列:僅通過將特定列作為數據框的子集傳遞來分析特定列:
脫脂(DF [[“年齡”,“薪金”]])
- 專注於丟失的數據:快速確定丟失的數據百分比:
Skim(df).loc [:,[“列”,“丟失(%)”]]
使用輕薄的優點
- 多合一摘要:輕薄將數字和非數字見解鞏固到單個表中。
- 節省時間:無需編寫多行代碼以探索不同的數據類型。
- 提高的可讀性:乾淨,視覺上吸引人的摘要使識別趨勢和異常值變得更加容易。
- 大型數據集的有效效率:輕薄的,可以優化用於處理許多列的數據集,而不會壓倒用戶。
結論
小巧通過向所有類型的數據集提供詳細的,可讀的見解來簡化數據摘要。與熊貓的描述()不同,它不僅限於數字數據,並提供了更豐富的摘要體驗。無論您是清潔數據,探索趨勢還是準備報告,輕薄的功能都使其成為數據專業人員必不可少的工具。
關鍵要點
- 輕薄的數字和非數字列無縫處理。
- 它提供了其他見解,例如缺失值和獨特的計數。
- 與熊貓描述()相比,輸出格式更直觀和視覺吸引力。
常見問題
Q1。什麼是輕薄的?答:這是一個python庫,旨在全面的數據摘要,為熊貓描述以外的見解()提供了見解。
Q2。可以輕薄替換描述()嗎?答:是的,它提供了增強的功能,並可以有效地替換描述()。
Q3。輕薄的支持大數據集嗎?答:是的,它經過優化,可有效處理大型數據集。
Q4。如何安裝輕薄的?答:使用PIP安裝:PIP安裝輕薄。
Q5。是什麼使輕薄的比描述更好()?答:它總結了所有數據類型,包括缺少的價值見解,並以更易於用戶友好的格式提供輸出。
以上是輕薄:pandas替代數據摘要()的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題
