格式化和清洗資料的 Python 工具包
世界很雜亂,來自現實世界的數據也一樣雜亂。近來一份調查報告顯示資料科學家60%的時間都花在整理資料上。不幸的是,57%的人認為這是工作中最頭痛的部分。
整理資料非常消耗時間,不過也有許多工具被開發出來讓這關鍵的一步變得稍微可以忍受。 Python 社群提供了許多函式庫讓資料變得清晰有序——從格式化 DataFrame 到匿名化資料集。
告訴我們你覺得有用的函式庫-我們一直致力於優化放入Mode Python Notebooks中的函式庫。
Dora
Dora是為探索性分析而設計的。特別是自動化分析中最痛苦的部分——例如特徵選取和提取,視覺化,還有你能猜到的——資料清潔。資料清潔相關的函數可以:
讀取含有缺失資料和沒有標準化的資料表
給缺失資料賦值
標準化變數
開發者:Nathan Epstein
更多資料:https://github.com/ NathanEpstein/Dora
datacleaner
號外號外,datacleaner 清洗你的資料-不過只有在你的資料是pandas DataFrame 實例的時候。開發者Randy Olson說:「datacleaner 不是魔法,它無法神奇的解析你沒有結構的數據。」
它可以刪除含有缺失數據的行,或者利用列的眾數或中位數填充缺失數據,將非數值型變數轉換為數值型變數。這個函式庫很新,但考慮到DataFrame 是 Python 資料分析的基本資料結構,這個函式庫還是值得試試看的。
開發者:Randy Olson
更多資料:https://github.com/rhiever/datacleaner
PrettyPandas
DataFrame 很強大,但是它們無法製作出你可以直接給你的老闆看的表。 PrettyPandas 利用了pandas 風格 API 將 DataFrame 轉換成可以示範的表格。產生資料摘要,設定風格,調整資料格式,列和行。附加福利:強健,可讀性高的使用文件。
開發者:Henry Hammond
更多資料:https://github.com/HHammond/PrettyPandas
tabulate
tabulate 可以讓你只用一個函數呼叫產生小型耐看的表格。非常適合透過調整小數點列對齊,資料格式,表頭和其他讓表格可讀性更高。
它有一個超酷的功能是可以讓表格輸出成不同的格式:HTML, PHP 或 Markdown Extra,這樣你可以用其他的工具或語言繼續在使用你已經表格化的資料。
開發者: Sergey Astanin
更多資料:https://pypi.python.org/pypi/tabulate
scrubadub
健康領域和金融領域的資料科學家常常需要匿名化資料集。 scrubadub可以將 私人資訊 (PII) 從文字從文字移除。例如:
姓名(名詞)
Email地址
網絡鏈接
電話號碼
用戶名/密碼組
Skype 用戶名
社會保險號
社會保險號碼自訂 scrubadub 的行為,例如定義新的PII 或保留特定的PII。
開發者:Datascope Analytics
更多資料:http://scrubadub.readthedocs.io/en/stable/index.html
Arrow
讓我們實話實說:在Python 裡處理日期和時間是很痛苦的。當地時區無法被自動辨識。得用好幾行不那麼讓人舒服的程式碼來轉換時區和時間戳記。
Arrow 旨於解決這個問題並且填補這個功能空白,從而讓你可以用更少的程式碼和引入函式庫來完成對日期和時間的操作。跟 Python 的標準時間庫不同的是,Arrow 預設會自動辨識時區和 UTC。你可以只用一行程式碼來完成時區轉換或分析時間字串。
開發者:Chris Smith
更多資料:http://arrow.readthedocs.io/en/latest/
Beautifier
Beautifier 的任務很簡單:清洗 URL 和 Email 地址並讓它們看起來更漂亮。你可以透過網域名稱和使用者名稱來解析 email ; 透過網域名稱和參數來解析URL。 (UTM 或標記)
開發者:Sachin Philip Mathew
更多資料:https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (fixes text for you) takes in code , it fixes all the junk characters. “quotesâ€x9d becomes "quotes"; ü becomes ü;
ftfy (fixes text for you)將雜亂的Unicode轉化為可識別的Unicode。簡單的說,它處理所有的垃圾字元。 “quotesâ€x9d 變成 "quotes"; ü 變成 ü;
開發者:Luminoso
更多資料:https://github.com/LuminosoInsight/python-ftf🜟

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DOS命令是Windows作業系統中使用的命令列工具,它可以用來執行各種系統管理任務和操作。其中一個常用的任務是格式化硬碟,包括C碟。格式化C碟是一個比較危險的操作,因為它將會清除C碟上的所有數據,並將檔案系統重新初始化。在執行這個操作之前,請確保你已經備份了重要的文件,並且清楚地了解格式化操作對你的電腦會產生的影響。下面是在DOS命令列中格式化

如何優化Java開發中的時間日期格式化解析效能摘要:在Java開發中,時間日期格式化與解析是常見的操作,但是由於時間日期格式複雜多樣且處理的資料量龐大,往往會成為效能瓶頸。本文將介紹幾種優化Java開發中時間日期格式化解析效能的方法,包括使用快取、減少物件建立、選擇適當的API等。一、引言時間日期格式化與解析在Java開發中非常常見。然而,在實際應用中,由於

光碟格式化是指將光碟的檔案系統重建和清空的過程,在光碟格式化過程中,所有的資料都會被徹底刪除,同時檔案系統會被重新建立,以便在光碟上重新儲存資料。光碟格式化可用於保護資料安全、修復光碟故障和清除病毒等目的,在進行光碟格式化時,需要備份重要資料、選擇適當的檔案系統,並耐心等待格式化完成。

d碟無法格式化的原因有該碟正在被其他程式或行程使用、該磁碟上有損壞的檔案系統、硬碟故障和權限問題的。詳細介紹:1、D磁碟無法格式化可能是因為該磁碟正在被其他程式或進程使用,在Windows作業系統中,如果有程式正在存取D磁碟上的檔案或資料夾,系統將無法執行格式化操作;2、D碟無法格式化可能是因為該碟上有損壞的檔案系統,檔案系統是作業系統用來組織和管理儲存裝置上的檔案和資料夾的等等。

現今,無法開機等,卡頓,我們難免會遇到一些問題,例如係統崩潰、但在使用過程中、手機已成為我們生活中不可或缺的一部分。我們往往束手無策、有時、對於這些問題的解決方法。幫助你解決手機故障,本文將為大家介紹一些手機格式化恢復的方法、讓手機重新恢復正常運作。備份資料-保護重要資訊安全通訊錄等,如照片、聯絡人、以免在格式化過程中遺失、在進行手機格式化之前、首先要考慮的是備份手機上的重要資料和檔案。確保資料的安全性、或選擇將檔案傳輸至雲端儲存服務中,可以透過連接電腦進行備份。使用系統自備恢復功能-簡

如何解決0x80070057錯誤:簡單有效的方法與步驟引言:在使用計算機的過程中,我們有時會遇到各種各樣的錯誤代碼。其中,0x80070057是一個非常常見的錯誤代碼,它通常與Windows作業系統相關。這個錯誤代碼可能出現在不同的情況下,例如在安裝或更新作業系統、備份或還原檔案以及格式化磁碟機時等。儘管這個錯誤代碼很令人沮喪,但它並不是無法解決的。本文將介

使用fmt.Sprint函數將多個值格式化為字串並返回,包括類型資訊在Go語言中,fmt套件提供了許多函數用於將資料格式化為字串。其中,fmt.Sprint函數可以將多個值格式化為字串並傳回。與fmt.Sprintf函數不同的是,fmt.Sprint函數傳回一個字串,而不是一個格式化後的字串。下面是一個使用fmt.Sprint函數的簡單範例程式碼:pa

Rufus是一款出色的工具,可輕鬆建立可啟動的USB驅動器。這個小巧而時尚的工具的效率令人驚嘆,通常可以提供無錯誤的操作。但是,有時創建一個新的可啟動USB記憶棒會彈出一些錯誤訊息,從而在刻錄過程中絆倒。如果您在使用Rufus時遇到任何困難,您可以按照以下步驟為您的問題找到快速解決方案。修正1–運行驅動器的錯誤檢查器在使用Rufus重試之前,您可以執行驅動器的錯誤檢查器工具來掃描驅動器是否有任何錯誤。 1.同時按下Windows鍵+E鍵開啟檔案總管。然後,點選「這台電腦
