


Zusammenfassung häufig verwendeter Bibliotheken für maschinelles Lernen in Python
Python wird häufig im wissenschaftlichen Rechnen verwendet: Computer Vision, künstliche Intelligenz, Mathematik, Astronomie usw. Es ist keine Überraschung, dass dies auch für maschinelles Lernen gilt.
Dieser Artikel listet und beschreibt die nützlichsten Tools und Bibliotheken für maschinelles Lernen in Python. In dieser Liste ist nicht erforderlich, dass diese Bibliotheken in Python geschrieben sind, solange sie über eine Python-Schnittstelle verfügen.
Unsere Absicht ist nicht, alle Bibliotheken für maschinelles Lernen in Python aufzulisten (der Python Package Index (PyPI) lieferte 139 Ergebnisse bei der Suche nach „maschinelles Lernen“), sondern die aufzulisten, von denen wir wissen, dass sie nützlich und gut gepflegt sind derer.
Obwohl einige Module für eine Vielzahl von maschinellen Lernaufgaben verwendet werden können, listen wir nur Bibliotheken auf, deren Hauptaugenmerk auf maschinellem Lernen liegt. Obwohl Scipy1 beispielsweise einige Clustering-Algorithmen enthält, liegt sein Hauptaugenmerk nicht auf maschinellem Lernen, sondern auf einem umfassenden Toolset für wissenschaftliche Berechnungen. Daher schließen wir Scipy aus (obwohl wir es auch verwenden!).
Zu erwähnen ist außerdem, dass wir diese Bibliotheken auch anhand ihrer Integration mit anderen wissenschaftlichen Computerbibliotheken bewerten werden, da maschinelles Lernen (überwacht oder unüberwacht) ebenfalls Teil des Datenverarbeitungssystems ist. Wenn die von Ihnen verwendete Bibliothek nicht zum Rest des Datenverarbeitungssystems passt, werden Sie viel Zeit damit verbringen, eine Zwischenschicht zwischen den verschiedenen Bibliotheken zu erstellen. Es ist wichtig, eine großartige Bibliothek in Ihrem Toolset zu haben, aber es ist ebenso wichtig, dass sich die Bibliothek gut in andere Bibliotheken integrieren lässt.
Wenn Sie gut in anderen Sprachen sind, aber auch Python-Pakete verwenden möchten, beschreiben wir auch kurz die Integration mit Python, um die in diesem Artikel aufgeführten Bibliotheken zu verwenden.
Scikit-Learn
Scikit Learn7 ist das maschinelle Lerntool, das wir bei CB Insights verwenden. Wir verwenden es zur Klassifizierung, Merkmalsauswahl, Merkmalsextraktion und Aggregation.
Was uns am besten gefällt, ist, dass es über eine benutzerfreundliche, konsistente API verfügt und **viele** sofort verfügbare Bewertungs-, Diagnose- und Kreuzvalidierungsmethoden bietet (kommt Ihnen das bekannt vor? Python bietet es auch die Methode „Akku ist bereit“). Das Tüpfelchen auf dem i ist, dass unter der Haube Scipy-Datenstrukturen verwendet werden, was gut zum Rest von Python passt, das Scipy, Numpy, Pandas und Matplotlib für wissenschaftliche Berechnungen verwendet.
Wenn Sie also die Leistung Ihres Klassifikators visualisieren möchten (z. B. mithilfe eines Precision-Recall-Plots oder einer ROC-Kurve (Receiver Operating Characteristics), kann Matplotlib Ihnen dabei helfen, schnelle Visualisierungen zu erstellen.
In Anbetracht des Zeitaufwands für die Bereinigung und Strukturierung von Daten kann die Verwendung dieser Bibliothek sehr praktisch sein, da sie eng in andere wissenschaftliche Computerpakete integriert werden kann.
Darüber hinaus enthält es auch begrenzte Funktionen zur Extraktion natürlicher Sprachverarbeitungsfunktionen sowie einen Wortschatz, tfidf (Term Frequency Inverse Document Frequency-Algorithmus), Vorverarbeitung (Stoppwörter/Stoppwörter, benutzerdefinierte Vorverarbeitung, Analysator). ).
Wenn Sie außerdem schnell verschiedene Benchmark-Tests an kleinen Datensätzen (Spielzeugdatensätzen) durchführen möchten, stellt ein eigenes Datensatzmodul allgemeine und nützliche Datensätze bereit. Sie können auf Basis dieser Datensätze auch eigene kleine Datensätze erstellen, um zu testen, ob das Modell Ihren Erwartungen für Ihre eigenen Zwecke entspricht, bevor Sie das Modell in der realen Welt anwenden. Zur Parameteroptimierung und Parameteranpassung stehen außerdem eine Rastersuche und eine Zufallssuche zur Verfügung.
Keine dieser Funktionen wäre ohne starke Community-Unterstützung möglich oder wenn sie nicht gut gepflegt wird. Wir freuen uns auf die erste stabile Veröffentlichung.
Statsmodels
Statsmodels ist eine weitere leistungsstarke Bibliothek mit Schwerpunkt auf statistischen Modellen, die hauptsächlich für prädiktive und explorative Analysen verwendet werden. Wenn Sie lineare Modelle anpassen, statistische Analysen durchführen oder Vorhersagemodelle erstellen möchten, ist Statsmodels genau das Richtige für Sie. Die bereitgestellten statistischen Tests sind recht umfassend und decken die meisten Verifizierungsaufgaben ab.
Wenn Sie ein R- oder S-Benutzer sind, bietet es auch R-Syntax für bestimmte statistische Modelle. Sein Modell akzeptiert auch Numpy-Arrays und Pandas-Datenrahmen, sodass Zwischendatenstrukturen der Vergangenheit angehören.
PyMC
PyMC ist ein Tool zur Erstellung von **Bayes-Kurven**. Es enthält Diagnosetools für Bayes'sche Modelle, statistische Verteilungen und Modellkonvergenz sowie einige hierarchische Modelle. Wenn Sie eine Bayes'sche Analyse durchführen möchten, sollten Sie sich diese ansehen.
Shogun
Shogun1 ist eine Toolbox für maschinelles Lernen mit Schwerpunkt auf Support Vector Machines (SVM), geschrieben in C++. Es wird aktiv weiterentwickelt und gewartet, bietet eine Python-Schnittstelle und ist außerdem die am besten dokumentierte Schnittstelle. Allerdings empfanden wir die API im Vergleich zu Scikit-learn als schwieriger zu verwenden. Darüber hinaus sind nicht viele Diagnose- und Bewertungsalgorithmen standardmäßig verfügbar. Geschwindigkeit ist jedoch ein großer Vorteil.
Gensim
Gensim ist definiert als „Themenmodellierung für Menschen“. Wie auf der Homepage beschrieben, liegt der Schwerpunkt auf der Latent Dirichlet Allocation (LDA) und ihren Varianten. Im Gegensatz zu anderen Paketen unterstützt es die Verarbeitung natürlicher Sprache und kann NLP und andere Algorithmen für maschinelles Lernen einfacher kombinieren.
Wenn Ihr Fachgebiet NLP ist und Sie eine Aggregation und grundlegende Klassifizierung durchführen möchten, können Sie einen Blick darauf werfen. Derzeit führen sie Googles Textdarstellung word2vec ein, die auf dem Recurrent Neural Network basiert. Diese Bibliothek ist ausschließlich in Python geschrieben.
Orange
Orange ist unter allen in diesem Artikel aufgeführten Bibliotheken die einzige mit einer grafischen Benutzeroberfläche (GUI). Es ist recht umfassend für Klassifizierungs-, Aggregations- und Merkmalsauswahlmethoden sowie einige Kreuzvalidierungsmethoden. Es ist in einigen Aspekten besser als Scikit-learn (Klassifizierungsmethode, einige Vorverarbeitungsfunktionen), aber seine Anpassungsfähigkeit an andere wissenschaftliche Computersysteme (Numpy, Scipy, Matplotlib, Pandas) ist nicht so gut wie Scikit-learn.
Das Einbinden einer GUI ist jedoch ein sehr wichtiger Vorteil. Sie können die Ergebnisse von Kreuzvalidierungen, Modellen und Feature-Auswahlmethoden visualisieren (für einige Features muss Graphviz installiert sein). Für die meisten Algorithmen verfügt Orange über eigene Datenstrukturen, daher müssen Sie die Daten in eine Orange-kompatible Datenstruktur einbinden, was die Lernkurve steiler macht.
PyMVPA
PyMVPA ist eine weitere statistische Lernbibliothek, deren API Scikit-learn sehr ähnlich ist. Enthält Kreuzvalidierungs- und Diagnosetools, ist jedoch nicht so umfassend wie Scikit-learn.
Deep Learning
Obwohl Deep Learning ein Unterbereich des maschinellen Lernens ist, haben wir hier einen separaten Abschnitt erstellt, weil es in letzter Zeit viel Aufmerksamkeit von den Talentakquiseabteilungen von Google und erregt hat Facebook.
Theano
Theano ist die ausgereifteste Deep-Learning-Bibliothek. Es bietet eine gute Datenstruktur (Tensor) zur Darstellung der Schichten eines neuronalen Netzwerks, das für die lineare Algebra sehr effizient ist und dem Numpy-Array ähnelt. Es ist zu beachten, dass die API möglicherweise nicht sehr intuitiv ist und die Lernkurve des Benutzers hoch sein wird. Es gibt viele auf Theano basierende Bibliotheken, die seine Datenstrukturen nutzen. Es unterstützt auch die GPU-Programmierung sofort.
PyLearn
Es gibt eine weitere Bibliothek, die auf Theano basiert, PyLearn2, die Theano Modularität und Konfigurierbarkeit verleiht. Sie können neuronale Netze über verschiedene Konfigurationsdateien erstellen. Versuchen Sie es mit verschiedenen Parametern. Man kann sagen, dass seine Modularität leistungsfähiger wird, wenn die Parameter und Eigenschaften des neuronalen Netzwerks in Konfigurationsdateien aufgeteilt werden.
Decaf
Decaf ist eine Deep-Learning-Bibliothek, die kürzlich von der UC Berkeley veröffentlicht wurde. Sie wurde im Rahmen der Imagenet-Klassifizierungsherausforderung getestet und stellte fest, dass ihre neuronale Netzwerkimplementierung sehr fortgeschritten ist (Stand der Technik).
Nolearn
Wenn Sie die hervorragende Scikit-learn-Bibliotheks-API für Deep Learning verwenden möchten, erleichtert Ihnen Nolearn, das Decaf kapselt, die Verwendung. Es handelt sich um eine Hülle um Decaf, die (größtenteils) mit Scikit-learn kompatibel ist und Decaf noch unglaublicher macht.
OverFeat
OverFeat ist der aktuelle Gewinner von Cats vs. Dogs (Kaggle Challenge) 4. Es ist in C++ geschrieben und enthält auch einen Python-Wrapper (zusammen mit Matlab und Lua). Es nutzt die GPU über die Torch-Bibliothek und ist daher schnell. Gewann außerdem den ImageNet-Wettbewerb zur Klassifizierungserkennung und -lokalisierung. Wenn Ihr Fachgebiet Computer Vision ist, sollten Sie einen Blick darauf werfen.
Hebel
Hebel ist eine weitere Bibliothek für neuronale Netze mit GPU-Unterstützung, die sofort verfügbar ist. Sie können die Eigenschaften des neuronalen Netzwerks über YAML-Dateien (ähnlich wie Pylearn2) bestimmen, was eine benutzerfreundliche Möglichkeit bietet, göttliche Netzwerke und Code zu trennen, und Sie können das Modell schnell ausführen. Da die Entwicklung erst seit kurzer Zeit erfolgt, mangelt es der Dokumentation an Tiefe und Umfang. Auch das neuronale Netzwerkmodell ist begrenzt, da es nur ein neuronales Netzwerkmodell unterstützt (Feed-Forward).
Allerdings ist sie in reinem Python geschrieben und wird eine sehr benutzerfreundliche Bibliothek sein, da sie viele praktische Funktionen wie Planer und Monitore enthält, die wir in anderen Bibliotheken nicht gefunden haben.
Neurolab
NeuroLab ist eine weitere API-freundliche (ähnlich wie Matlabapi) neuronale Netzwerkbibliothek. Im Gegensatz zu anderen Bibliotheken enthält sie verschiedene Varianten von RNN-Implementierungen (Recurrent Neural Network). Wenn Sie RNN verwenden möchten, ist diese Bibliothek eine der besten Optionen unter ähnlichen APIs.
Integration mit anderen Sprachen
Sie kennen Python nicht, sind aber gut in anderen Sprachen? Eine der Stärken von Python (neben anderen) ist, dass es so ist Eine perfekte Klebersprache, die Sie verwenden können. Verwenden Sie Ihre eigene häufig verwendete Programmiersprache, um über Python auf diese Bibliotheken zuzugreifen. Um andere Sprachen mit Python zu kombinieren, können folgende Pakete für verschiedene Programmiersprachen verwendet werden:
R -> RPython
Matlab -> - > Jython
Lua -> Lunatic Python
Julia -> mehr als ein Jahr Alle veröffentlichten Updates werden von uns aufgelistet, da sie für Sie nützlich sein könnten. Es ist jedoch unwahrscheinlich, dass diese Bibliotheken Fehlerbehebungen erhalten, insbesondere keine zukünftigen Verbesserungen.
MDP2MlPy
FFnet
PyBrain
Das obige ist der detaillierte Inhalt vonZusammenfassung häufig verwendeter Bibliotheken für maschinelles Lernen in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Es gibt keine integrierte Summenfunktion in der C-Sprache, daher muss sie selbst geschrieben werden. Die Summe kann erreicht werden, indem das Array durchquert und Elemente akkumulieren: Schleifenversion: Die Summe wird für die Schleifen- und Arraylänge berechnet. Zeigerversion: Verwenden Sie Zeiger, um auf Array-Elemente zu verweisen, und eine effiziente Summierung wird durch Selbststillstandszeiger erzielt. Dynamisch Array -Array -Version zuweisen: Zuordnen Sie Arrays dynamisch und verwalten Sie selbst den Speicher selbst, um sicherzustellen, dass der zugewiesene Speicher befreit wird, um Speicherlecks zu verhindern.

Es gibt kein absolutes Gehalt für Python- und JavaScript -Entwickler, je nach Fähigkeiten und Branchenbedürfnissen. 1. Python kann mehr in Datenwissenschaft und maschinellem Lernen bezahlt werden. 2. JavaScript hat eine große Nachfrage in der Entwicklung von Front-End- und Full-Stack-Entwicklung, und sein Gehalt ist auch beträchtlich. 3. Einflussfaktoren umfassen Erfahrung, geografische Standort, Unternehmensgröße und spezifische Fähigkeiten.

Obwohl eindeutig und unterschiedlich mit der Unterscheidung zusammenhängen, werden sie unterschiedlich verwendet: Unterschieds (Adjektiv) beschreibt die Einzigartigkeit der Dinge selbst und wird verwendet, um Unterschiede zwischen den Dingen zu betonen; Das Unterscheidungsverhalten oder die Fähigkeit des Unterschieds ist eindeutig (Verb) und wird verwendet, um den Diskriminierungsprozess zu beschreiben. In der Programmierung wird häufig unterschiedlich, um die Einzigartigkeit von Elementen in einer Sammlung darzustellen, wie z. B. Deduplizierungsoperationen; Unterscheidet spiegelt sich in der Gestaltung von Algorithmen oder Funktionen wider, wie z. B. die Unterscheidung von ungeraden und sogar Zahlen. Bei der Optimierung sollte der eindeutige Betrieb den entsprechenden Algorithmus und die Datenstruktur auswählen, während der unterschiedliche Betrieb die Unterscheidung zwischen logischer Effizienz optimieren und auf das Schreiben klarer und lesbarer Code achten sollte.

! X Understanding! X ist ein logischer Nicht-Operator in der C-Sprache. Es booleschen den Wert von x, dh wahre Änderungen zu falschen, falschen Änderungen an True. Aber seien Sie sich bewusst, dass Wahrheit und Falschheit in C eher durch numerische Werte als durch Boolesche Typen dargestellt werden, ungleich Null wird als wahr angesehen und nur 0 wird als falsch angesehen. Daher handelt es sich um negative Zahlen wie positive Zahlen und gilt als wahr.

Es gibt keine integrierte Summenfunktion in C für die Summe, kann jedoch implementiert werden durch: Verwenden einer Schleife, um Elemente nacheinander zu akkumulieren; Verwenden eines Zeigers, um auf die Elemente nacheinander zuzugreifen und zu akkumulieren; Betrachten Sie für große Datenvolumina parallele Berechnungen.

Die H5 -Seite muss aufgrund von Faktoren wie Code -Schwachstellen, Browserkompatibilität, Leistungsoptimierung, Sicherheitsaktualisierungen und Verbesserungen der Benutzererfahrung kontinuierlich aufrechterhalten werden. Zu den effektiven Wartungsmethoden gehören das Erstellen eines vollständigen Testsystems, die Verwendung von Versionstools für Versionskontrolle, die regelmäßige Überwachung der Seitenleistung, das Sammeln von Benutzern und die Formulierung von Wartungsplänen.

Wie erhalte ich dynamische Daten von 58.com Arbeitsseite beim Kriechen? Wenn Sie eine Arbeitsseite von 58.com mit Crawler -Tools kriechen, können Sie auf diese begegnen ...

Das Kopieren und Einfügen des Codes ist nicht unmöglich, sollte aber mit Vorsicht behandelt werden. Abhängigkeiten wie Umgebung, Bibliotheken, Versionen usw. im Code stimmen möglicherweise nicht mit dem aktuellen Projekt überein, was zu Fehlern oder unvorhersehbaren Ergebnissen führt. Stellen Sie sicher, dass der Kontext konsistent ist, einschließlich Dateipfade, abhängiger Bibliotheken und Python -Versionen. Wenn Sie den Code für eine bestimmte Bibliothek kopieren und einfügen, müssen Sie möglicherweise die Bibliothek und ihre Abhängigkeiten installieren. Zu den häufigen Fehlern gehören Pfadfehler, Versionskonflikte und inkonsistente Codestile. Die Leistungsoptimierung muss gemäß dem ursprünglichen Zweck und den Einschränkungen des Codes neu gestaltet oder neu gestaltet werden. Es ist entscheidend, den Code zu verstehen und den kopierten kopierten Code zu debuggen und nicht blind zu kopieren und einzufügen.
