Maison développement back-end Tutoriel Python 格式化和清洗数据的 Python 工具包

格式化和清洗数据的 Python 工具包

Nov 08, 2016 am 10:23 AM
格式化

世界很杂乱,来自现实世界的数据也一样杂乱。近来一份调查报告显示数据科学家60%的时间都花在整理数据上。不幸的是,57%的人认为这是工作中最头疼的一部分。

整理数据非常消耗时间,不过也有许多工具被开发出来让这关键的一步变得稍微可以忍受。Python 社区提供了许多库让数据变得清晰有序——从格式化 DataFrame 到匿名化数据集。

告诉我们你觉得有用的库——我们一直致力于优化放入Mode Python Notebooks中的库。

python-data-cleaning-libraries.png

Dora

Dora是为探索性分析而设计的。特别是自动化分析中最痛苦的部分——比如特征选取和提取,可视化,还有你能猜到的——数据清洁。数据清洁相关的函数可以:

读取含有缺失数据和没有标准化的数据表

给缺失数据赋值

标准化变量

开发者:Nathan Epstein
更多资料:https://github.com/NathanEpstein/Dora

datacleaner

号外号外,datacleaner 清洗你的数据——不过只有在你的数据是 pandas DataFrame 实例的时候。开发者Randy Olson说:“datacleaner 不是魔法,它无法神奇的解析你没有结构的数据。”

它可以删除含有缺失数据的行,或者利用列的众数或中位数填充缺失数据,将非数值型变量转化为数值型变量。这个库很新,但考虑到DataFrame 是 Python 数据分析的基本数据结构,这个库还是值得试试看的。

开发者:Randy Olson
更多资料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很强大,但是它们无法制作出你可以直接给你的老板看的表。PrettyPandas 利用了pandas 风格 API 将 DataFrame 转换成可以演示的表格。产生数据摘要,设置风格,调整数据格式,列和行。附加福利:强健,可读性高的使用文档。

开发者:Henry Hammond
更多资料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以让你仅仅用一个函数调用生成小型耐看的表格。非常适合于通过调整小数点列对齐,数据格式,表头和其他让表格可读性更高。

它有一个超酷的功能是可以让表格输出成不同的格式:HTML, PHP 或者 Markdown Extra,这样你可以用其他的工具或语言继续在使用你已经表格化的数据。

开发者: Sergey Astanin
更多资料:https://pypi.python.org/pypi/tabulate

scrubadub

健康领域和金融领域的数据科学家常需要匿名化数据集。scrubadub可以将 私人信息 (PII) 从文本从移除。例如:

姓名 (名词)

Email地址

网络链接

电话号码

用户名/密码组

Skype 用户名

社会保险号

文档很好的演示了通过哪些途径你可以自定义 scrubadub 的行为,例如定义新的 PII 或者保留特定的 PII。

开发者:Datascope Analytics
更多资料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

让我们实话实说:在 Python 里处理日期和时间是很痛苦的。当地时区无法被自动识别。得用好几行不那么让人舒服的代码来转换时区和时间戳。

Arrow 旨于解决这个问题并且填补这个功能空白,从而让你可以用更少的代码和引入库来完成对日期和时间的操作。跟 Python 的标准时间库不同的是,Arrow 默认自动识别时区和 UTC。你可以只用一行代码来完成时区转换或者分析时间字符串。

开发者:Chris Smith
更多资料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任务很简单:清洗 URL 和 Email 地址并让它们看起来更漂亮。你可以通过域名和用户名来解析 email ; 通过域名和参数来解析URL。(UTM 或者标记)

开发者:Sachin Philip Mathew
更多资料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. â€œquotesâ€x9d becomes "quotes"; ü becomes ü; 

ftfy (fixes text for you)将杂乱的Unicode转化为可识别的Unicode。简单的说,它处理所有的垃圾字符。“quotesâ€x9d 变成 "quotes"; ü 变成 ü; 

开发者:Luminoso
更多资料:https://github.com/LuminosoInsight/python-ftfy


Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment formater le lecteur C avec la commande DOS Comment formater le lecteur C avec la commande DOS Feb 19, 2024 pm 04:23 PM

Comment formater le lecteur C avec la commande DOS

Pourquoi le disque D ne peut-il pas être formaté ? Pourquoi le disque D ne peut-il pas être formaté ? Aug 30, 2023 pm 02:39 PM

Pourquoi le disque D ne peut-il pas être formaté ?

Qu'est-ce que le formatage de disque Qu'est-ce que le formatage de disque Aug 17, 2023 pm 04:02 PM

Qu'est-ce que le formatage de disque

Méthodes pour améliorer les performances d'analyse du formatage de l'heure et de la date Java Méthodes pour améliorer les performances d'analyse du formatage de l'heure et de la date Java Jul 01, 2023 am 08:07 AM

Méthodes pour améliorer les performances d'analyse du formatage de l'heure et de la date Java

Tutoriel de formatage informatique Tutoriel de formatage informatique Jan 08, 2024 am 08:21 AM

Tutoriel de formatage informatique

Correctif : Rufus ne peut pas créer de problème USB amorçable sur un PC Windows Correctif : Rufus ne peut pas créer de problème USB amorçable sur un PC Windows Apr 29, 2023 am 09:19 AM

Correctif : Rufus ne peut pas créer de problème USB amorçable sur un PC Windows

Le formatage d'un ordinateur portable le rendra-t-il plus rapide ? Le formatage d'un ordinateur portable le rendra-t-il plus rapide ? Feb 12, 2024 pm 11:54 PM

Le formatage d'un ordinateur portable le rendra-t-il plus rapide ?

Étapes simples et efficaces pour résoudre l'erreur 0x80070057 Étapes simples et efficaces pour résoudre l'erreur 0x80070057 Dec 27, 2023 am 08:38 AM

Étapes simples et efficaces pour résoudre l'erreur 0x80070057

See all articles