格式化和清洗数据的 Python 工具包
Nov 08, 2016 am 10:23 AM世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。
整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。
告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。
Dora
Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:
读取含有缺失数据和没有标准化的数据表
给缺失数据赋值
标准化变量
开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora
datacleaner
号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”
它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。
开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner
PrettyPandas
DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。
开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas
tabulate
tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。
它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。
开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate
scrubadub
健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:
姓名 (名词)
Email地址
网络链接
电话号码
用户名/密码组
Skype 用户名
社会保险号
文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。
开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html
Arrow
让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。
Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。
开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/
Beautifier
Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)
开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. “quotesâ€x9d becomes "quotes"; ü becomes ü;
ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 "quotes"; ü 变成 ü;
开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy

Article chaud

Outils chauds Tags

Article chaud

Tags d'article chaud

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Comment formater le lecteur C avec la commande DOS

Pourquoi le disque D ne peut-il pas être formaté ?

Méthodes pour améliorer les performances d'analyse du formatage de l'heure et de la date Java

Correctif : Rufus ne peut pas créer de problème USB amorçable sur un PC Windows

Le formatage d'un ordinateur portable le rendra-t-il plus rapide ?

Étapes simples et efficaces pour résoudre l'erreur 0x80070057
