ホームページ バックエンド開発 Python チュートリアル データのフォーマットとクリーニングのための Python ツールキット

データのフォーマットとクリーニングのための Python ツールキット

Nov 08, 2016 am 10:23 AM
フォーマット

世界は混乱していますが、現実世界のデータも混乱しています。最近の調査報告によると、データ サイエンティストの時間の 60% はデータの整理に費やされています。残念ながら、57% の人がこれが仕事の中で最も面倒な部分だと考えています。

データの整理には非常に時間がかかりますが、この重要なステップをもう少し耐えられるようにするために多くのツールが開発されています。 Python コミュニティは、DataFrame のフォーマットからデータセットの匿名化まで、データを整理するためのライブラリを多数提供しています。

便利だと思うライブラリを教えてください - 私たちは、Mode Python Notebooks に組み込まれるライブラリの最適化に常に取り組んでいます。

データのフォーマットとクリーニングのための Python ツールキット

Dora

Dora は探索的分析用に設計されています。特に自動分析の最も面倒な部分は、特徴の選択と抽出、視覚化、そしてご想像のとおり、データのクリーニングなどです。データ クリーニングに関連する関数は次のことが可能です:

欠損データと標準化されていないデータを含むデータ テーブルを読み取る

欠損データに値を割り当てる

標準化された変数

開発者: Nathan Epstein
詳細情報: https://github.com/NathanEpstein /Dora

datacleaner

つまり、datacleaner はデータをクリーンアップしますが、これはデータが pandas DataFrame インスタンスである場合に限ります。開発者の Randy Olson 氏は、「Datacleaner は魔法ではありません。非構造化データを魔法のように解析することはできません。欠落データを含む行を削除したり、列のモードや中央値を使用して欠落データを埋めたり、非構造化データを置き換えたりすることはできません。」 . 数値変数は数値変数に変換されます。このライブラリは非常に新しいものですが、DataFrame が Python データ分析の基本データ構造であることを考慮すると、試してみる価値があります。

開発者: Randy Olson

詳細情報: https://github.com/rhiever/datacleaner


PrettyPandas

DataFrames は強力ですが、上司に直接見せることができるテーブルを作成することはできません。 PrettyPandas は、パンダ スタイル API を使用して、DataFrame をプレゼンテーション可能なテーブルに変換します。データの概要を生成し、スタイルを設定し、データ形式、列、行を調整します。ボーナス: 堅牢で読みやすい使用法ドキュメント。

開発者: Henry Hammond

詳細情報: https://github.com/HHammond/PrettyPandas


tabulate

tabulate を使用すると、1 回の関数呼び出しで小さくて魅力的なテーブルを生成できます。小数列の配置、データの書式設定、表のヘッダーなどを調整して、表を読みやすくするのに最適です。

これには、表をさまざまな形式 (HTML、PHP、または Markdown Extra) で出力できる非常に優れた機能があり、他のツールや言語を使用して表を作成したデータを引き続き使用できます。

開発者: Sergey Astanin

詳細情報: https://pypi.python.org/pypi/tabulate


scrubadub

医療および金融分野のデータ サイエンティストは、データ セットを匿名化する必要があることがよくあります。 Scrubadub はテキストから個人情報 (PII) を削除できます。例:

名前(名詞)

メールアドレス

インターネットリンク

電話番号

ユーザー名/パスワードの設定

Skypeユーザー名

社会保障番号

この文書は、次のことができる方法をうまく示しています。新しい PII の定義や特定の PII の保持など、scrubadub の動作をカスタマイズします。

開発者: Datascope Analytics

詳細情報: http://scrubadub.readthedocs.io/en/stable/index.html


Arrow

正直に言うと、Python で日付と時刻を扱うのは面倒です。ローカルタイムゾーンは自動的には認識されません。タイムゾーンとタイムスタンプを変換するには、数行のコードが必要になります。

Arrow は、この問題を解決し、機能上のギャップを埋め、より少ないコードとインポートされたライブラリで日付と時刻の操作を完了できるようにすることを目的としています。 Python の標準時刻ライブラリとは異なり、Arrow はデフォルトでタイムゾーンと UTC を自動的に認識します。わずか 1 行のコードで、タイム ゾーンの変換を実行したり、時刻文字列を解析したりできます。

開発者: Chris Smith

詳細情報: http://arrow.readthedocs.io/en/latest/


Beautifier

Beautifier の使命はシンプルです。URL とメール アドレスをクリーンにして見栄えを良くすることです。電子メールはドメイン名とユーザー名で解析でき、URL はドメイン名とパラメータで解析できます。 (UTM またはタグ)

開発者: Sachin Philip Mathew

詳細: https://github.com/sachinvettithanam/beautifier


ftfy

ftfy (テキストを修正) は、悪い Unicode を取り込み、良い Unicode を出力します。すべてのジャンク文字を修正します。「quotes」x9d は "quotes" になります。uÌ^ は ü になります。

ftfy (テキストを修正) は、乱雑な Unicode を認識可能な Unicode に変換します。簡単に言えば、すべての文字化け文字を処理します。 “quotesâ€x9d は「引用符」になります; uÌ ^ は ü になります;

詳細: https://github.com/LuminosoInsight/python-ftfy

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットな記事タグ

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

dosコマンドでCドライブをフォーマットする方法 dosコマンドでCドライブをフォーマットする方法 Feb 19, 2024 pm 04:23 PM

dosコマンドでCドライブをフォーマットする方法

Dドライブがフォーマットできないのはなぜですか? Dドライブがフォーマットできないのはなぜですか? Aug 30, 2023 pm 02:39 PM

Dドライブがフォーマットできないのはなぜですか?

ディスクのフォーマットとは何ですか ディスクのフォーマットとは何ですか Aug 17, 2023 pm 04:02 PM

ディスクのフォーマットとは何ですか

Java の時刻と日付のフォーマット解析パフォーマンスを向上させる方法 Java の時刻と日付のフォーマット解析パフォーマンスを向上させる方法 Jul 01, 2023 am 08:07 AM

Java の時刻と日付のフォーマット解析パフォーマンスを向上させる方法

コンピューターのフォーマットのチュートリアル コンピューターのフォーマットのチュートリアル Jan 08, 2024 am 08:21 AM

コンピューターのフォーマットのチュートリアル

修正: Rufus が Windows PC で起動可能な USB 問題を作成できない 修正: Rufus が Windows PC で起動可能な USB 問題を作成できない Apr 29, 2023 am 09:19 AM

修正: Rufus が Windows PC で起動可能な USB 問題を作成できない

ラップトップをフォーマットすると速度が速くなりますか? ラップトップをフォーマットすると速度が速くなりますか? Feb 12, 2024 pm 11:54 PM

ラップトップをフォーマットすると速度が速くなりますか?

携帯電話のフォーマット復元方法の秘密を公開(携帯電話の故障?心配しないでください) 携帯電話のフォーマット復元方法の秘密を公開(携帯電話の故障?心配しないでください) May 04, 2024 pm 06:01 PM

携帯電話のフォーマット復元方法の秘密を公開(携帯電話の故障?心配しないでください)

See all articles