In diesem Artikel werden wir uns einige andere Python-Bibliotheken für datenwissenschaftliche Aufgaben ansehen als die gängigeren Bibliotheken wie Panda, Scikit-Learn und Matplotlib. Obwohl Bibliotheken wie Panda und Scikit-Learn häufig für maschinelle Lernaufgaben verwendet werden, ist es immer von Vorteil, andere Python-Produkte in diesem Bereich zu verstehen.
Das Extrahieren von Daten aus dem Internet ist eine der wichtigen Aufgaben eines Datenwissenschaftlers. Wget ist ein kostenloses Dienstprogramm, mit dem nicht interaktive Dateien aus dem Internet heruntergeladen werden können. Es unterstützt die Protokolle HTTP, HTTPS und FTP sowie den Dateiabruf über den HTTP-Proxy. Da es nicht interaktiv ist, kann es im Hintergrund arbeiten, auch wenn der Benutzer nicht angemeldet ist. Wenn Sie also das nächste Mal alle Bilder einer Website oder Seite herunterladen möchten, kann Ihnen wget helfen.
Installation:
$ pip install wget
Beispiel:
import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532 filename 'razorback.mp3'
Für diejenigen, die beim Umgang mit Datum und Uhrzeit in Python frustriert sind, ist Pendulum genau das Richtige. Es handelt sich um ein Python-Paket, das Datum/Uhrzeit-Operationen vereinfacht. Es ist ein einfacher Ersatz für die nativen Klassen von Python. Weitere Informationen finden Sie in der Dokumentation.
Installation:
$ pip install pendulum
Beispiel:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') print(dt_vancouver.diff(dt_toronto).in_hours()) 3
Es ist ersichtlich, dass die meisten Klassifizierungsalgorithmen am besten funktionieren, wenn die Anzahl der Stichproben in jeder Klasse grundsätzlich gleich ist, das heißt, das Datengleichgewicht muss sein gepflegt. Bei den meisten realen Fällen handelt es sich jedoch um unausgeglichene Datensätze, die einen großen Einfluss auf die Lernphase und die nachfolgenden Vorhersagen des Algorithmus für maschinelles Lernen haben. Glücklicherweise ist diese Bibliothek darauf ausgelegt, dieses Problem zu lösen. Es ist mit scikit-learn kompatibel und Teil des scikit-lear-contrib-Projekts. Versuchen Sie es, wenn Sie das nächste Mal auf einen unausgeglichenen Datensatz stoßen.
Installation:
$ pip install -U imbalanced-learn # 或者 $ conda install -c conda-forge imbalanced-learn
Beispiel:
Nutzung und Beispiele finden Sie in der Dokumentation.
Bei NLP-Aufgaben erfordert das Bereinigen von Textdaten häufig das Ersetzen von Schlüsselwörtern in Sätzen oder das Extrahieren von Schlüsselwörtern aus Sätzen. In der Regel kann dies mithilfe regulärer Ausdrücke erfolgen. Dies kann jedoch umständlich werden, wenn die Anzahl der gesuchten Begriffe in die Tausende geht. Das FlashText-Modul von Python basiert auf dem FlashText-Algorithmus und bietet für diese Situation eine geeignete Alternative. Das Tolle an FlashText ist, dass die Laufzeit unabhängig von der Anzahl der Suchbegriffe gleich ist. Mehr erfahren Sie hier.
Installation:
$ pip install flashtext
Beispiel:
Schlüsselwörter extrahieren
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(<unclean name>, <standardised name>) keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area') keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') keywords_found ['New York', 'Bay Area']
Schlüsselwörter ersetzen
keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.' Fuzzywuzzy
Installation:
$ pip install fuzzywuzzy
Beispiele:
from fuzzywuzzy import fuzz from fuzzywuzzy import process # 简单匹配度 fuzz.ratio("this is a test", "this is a test!") 97 # 模糊匹配度 fuzz.partial_ratio("this is a test", "this is a test!") 100
Weitere interessante Beispiele finden Sie im GitHub-Repository.
6. PyFlux
Installation
pip install pyflux
Beispiele
Detaillierte Informationen zur Verwendung und Beispiele finden Sie in der offiziellen Dokumentation.
7. Ipyvolume
$ pip install ipyvolume
$ conda install -c conda-forge ipyvolume
OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。
安装
pip install gym
例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。
以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。
Das obige ist der detaillierte Inhalt vonNeun äußerst nützliche Python-Bibliotheken für die Datenwissenschaft. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!