この記事では、panda、scikit-learn、matplotlib などのより一般的なライブラリではなく、データ サイエンス タスク用の Python ライブラリをいくつか見ていきます。 panda や scikit-learn などのライブラリは機械学習タスクでよく使用されますが、この分野の他の Python 製品を理解することは常に有益です。
インターネットからデータを抽出することは、データ サイエンティストの重要なタスクの 1 つです。 Wget は、インターネットから非対話型ファイルをダウンロードするために使用できる無料のユーティリティです。 HTTP、HTTPS、および FTP プロトコルに加えて、HTTP のプロキシを介したファイルの取得もサポートしています。非対話型であるため、ユーザーがログインしていなくてもバックグラウンドで動作できます。したがって、次回 Web サイトまたはページ上のすべての画像をダウンロードしたい場合は、wget が役に立ちます。
インストール:
$ pip install wget
例:
import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532 filename 'razorback.mp3'
Python で日付と時刻を扱うときにイライラする人には、Pendulum が最適です。あなた。これは日時操作を簡素化する Python パッケージです。これは、Python のネイティブ クラスの単純な置き換えです。より深い学習についてはドキュメントを参照してください。
インストール:
$ pip install pendulum
例:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') print(dt_vancouver.diff(dt_toronto).in_hours()) 3
各クラスのサンプル数が基本的に同様に、ほとんどの分類アルゴリズムは、データのバランスをとる必要がある場合に最適に機能します。ただし、実際のケースのほとんどは不均衡なデータセットであり、機械学習アルゴリズムの学習フェーズとその後の予測に大きな影響を与えます。幸いなことに、このライブラリはこの問題を解決するように設計されています。これは scikit-learn と互換性があり、scikit-lear-contrib プロジェクトの一部です。次回不均衡なデータセットに遭遇したときにこれを使用してみてください。
インストール:
$ pip install -U imbalanced-learn # 或者 $ conda install -c conda-forge imbalanced-learn
例:
使用方法と使用例についてはドキュメントを参照してください。
NLP タスクでは、テキスト データのクリーニングでは、多くの場合、文内のキーワードを置き換えたり、文からキーワードを抽出したりする必要があります。通常、これは正規表現を使用して実行できますが、検索される用語の数が数千に達する場合、これは面倒になる可能性があります。 Python の FlashText モジュールは FlashText アルゴリズムに基づいており、この状況に適した代替手段を提供します。 FlashText の優れた点は、検索語の数に関係なく実行時間が同じであることです。詳細については、こちらをご覧ください。
インストール:
$ pip install flashtext
例:
キーワードの抽出
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(<unclean name>, <standardised name>) keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area') keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') keywords_found ['New York', 'Bay Area']
キーワードの置換
keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.' Fuzzywuzzy
$ pip install fuzzywuzzy
from fuzzywuzzy import fuzz from fuzzywuzzy import process # 简单匹配度 fuzz.ratio("this is a test", "this is a test!") 97 # 模糊匹配度 fuzz.partial_ratio("this is a test", "this is a test!") 100
pip install pyflux
$ pip install ipyvolume
$ conda install -c conda-forge ipyvolume
pip install dash==0.29.0# 核心 dash 后端 pip install dash-html-components==0.13.2# HTML 组件 pip install dash-core-components==0.36.0# 增强组件 pip install dash-table==3.1.3# 交互式 DataTable 组件(最新!)
OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。
安装
pip install gym
例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。
以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。
以上がデータ サイエンスに非常に役立つ 9 つの Python ライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。