Datenerfassung: öffentliche Daten, Python-Crawler
Es gibt zwei Hauptmethoden, um externe Daten zu erhalten. (Empfohlenes Lernen: Python-Video-Tutorial)
Das erste ist, einige wissenschaftliche Forschungseinrichtungen, Unternehmen und Regierungen zu öffnen spezifische Website. Laden Sie diese Daten herunter. Diese Datensätze sind in der Regel relativ vollständig und von relativ hoher Qualität.
Eine weitere Möglichkeit, externe Daten zu erhalten, sind Crawler.
Zum Beispiel können Sie einen Crawler verwenden, um die Rekrutierungsinformationen für eine bestimmte Position auf der Rekrutierungswebsite abzurufen, die Verleihinformationen einer bestimmten Stadt auf der Verleihwebsite zu crawlen und die Liste der Filme mit den höchsten Bewertungen zu crawlen auf Douban und erhalten Sie die Likes-Rangliste auf Zhihu, der NetEase Cloud-Rangliste für Musikrezensionen. Anhand der aus dem Internet gecrawlten Daten können Sie eine bestimmte Branche und einen bestimmten Personenkreis analysieren.
Vor dem Crawlen müssen Sie einige Grundkenntnisse in Python kennen: Elemente (Listen, Wörterbücher, Tupel usw.), Variablen, Schleifen, Funktionen ...
Und wie man sie verwendet Python-Bibliotheken (urllib, BeautifulSoup, request, scrapy) implementieren Webcrawler.
Nachdem Sie grundlegende Crawler beherrschen, benötigen Sie noch einige fortgeschrittene Fähigkeiten, wie z. B. reguläre Ausdrücke, Verwendung von Cookie-Informationen, Simulation der Benutzeranmeldung, Paketerfassungsanalyse, Aufbau von Proxy-Pools usw., um mit den Anti-Crawler-Einschränkungen umzugehen verschiedener Websites.
Datenzugriff: SQL-Sprache
Beim Umgang mit Daten innerhalb von 10.000 hat Excel kein Problem mit der allgemeinen Analyse. Sobald die Datenmenge groß ist, ist dies nicht möglich um damit klarzukommen. Die Datenbank kann dieses Problem sehr gut lösen. Und die meisten Unternehmen speichern Daten in Form von SQL.
SQL bietet als klassischstes Datenbanktool die Möglichkeit zur Speicherung und Verwaltung großer Datenmengen und verbessert die Effizienz der Datenextraktion erheblich. Sie müssen die folgenden Fähigkeiten beherrschen:
Daten unter bestimmten Umständen extrahieren
Datenbank hinzufügen, löschen, abfragen und ändern
Daten gruppieren und aggregieren, mehrere Tabellen erstellen Die Verbindung zwischen
Datenvorverarbeitung: Python (Pandas)
Oft sind die Daten, die wir erhalten, nicht sauber, mit Duplikaten, fehlenden Daten, Ausreißern usw. Warten Sie, Zu diesem Zeitpunkt ist es notwendig, die Daten zu bereinigen und die Daten zu verarbeiten, die sich auf die Analyse auswirken, um genauere Analyseergebnisse zu erhalten.
Für die Datenvorverarbeitung lernen Sie, wie Sie Pandas (Python-Paket) verwenden, und Sie werden keine Probleme mit der allgemeinen Datenbereinigung haben. Folgende Wissenspunkte müssen beherrscht werden:
Auswählen: Datenzugriff
Verarbeitung fehlender Werte: Fehlende Datenzeilen löschen oder füllen
Verarbeitung doppelter Werte: Beurteilung und Bestimmung doppelter Werte Löschen
Ausreißerverarbeitung: unnötige Leerzeichen und extreme, abnormale Daten löschen
Verwandte Operationen: beschreibende Statistiken, Anwenden, Histogramme usw.
Zusammenführen: konform verschiedene Zusammenführungsoperationen logischer Beziehungen
Gruppierung: Datenteilung, getrennte Ausführung von Funktionen, Datenreorganisation
Umformen: schnelle Generierung von Pivot-Tabellen
Wahrscheinlichkeitstheorie und statistisches Wissen
Die Wissenspunkte, die beherrscht werden müssen, sind wie folgt:
Grundlegende Statistiken: Mittelwert, Median, Modus, Perzentil, Extremwert usw.
Sonstiges Beschreibend Statistiken: Schiefe, Varianz, Standardabweichung, Signifikanz usw.
Andere statistische Kenntnisse: Population und Stichprobe, Parameter und Statistiken, ErrorBar
Wahrscheinlichkeitsverteilung und Hypothesentests: verschiedene Verteilung, Hypothesentestprozess
Andere Kenntnisse der Wahrscheinlichkeitstheorie: bedingte Wahrscheinlichkeit, Bayes usw.
Mit den Grundkenntnissen der Statistik können Sie diese Statistiken für grundlegende Analysen verwenden. Sie können Seaborn, Matplotlib usw. (Python-Paket) verwenden, um visuelle Analysen durchzuführen und mithilfe verschiedener visueller statistischer Diagramme aufschlussreiche Ergebnisse zu erhalten.
Python-Datenanalyse
Beherrschen Sie die Methode der Regressionsanalyse und der logistischen Regression, können Sie tatsächlich eine Regressionsanalyse für die meisten Daten durchführen und eine relativ genaue Schlussfolgerung ableiten . Die Wissenspunkte, die in diesem Teil beherrscht werden müssen, sind wie folgt:
Regressionsanalyse: lineare Regression, logistische Regression
Grundlegender Klassifizierungsalgorithmus: Entscheidungsbaum, Zufallswald ...
Grundlegender Clustering-Klassenalgorithmus: k-means...
Grundlagen des Feature-Engineerings: Verwendung der Feature-Auswahl zur Optimierung des Modells
Parameteranpassungsmethode: So passen Sie Parameter zur Optimierung an das Modell
Python-Datenanalysepaket: Scipy, Numpy, Scikit-Learn usw.
Konzentrieren Sie sich in dieser Phase der Datenanalyse auf das Verständnis der Regressionsanalysemethode. Die meisten Probleme können gelöst werden. Mithilfe der deskriptiven statistischen Analyse und der Regressionsanalyse können Sie vollständig eine gute analytische Schlussfolgerung ziehen.
Natürlich können Sie mit zunehmender Praxis auf einige komplexe Probleme stoßen und müssen möglicherweise einige fortgeschrittenere Algorithmen verstehen: Klassifizierung und Clustering.
Dann wissen Sie, welches Algorithmusmodell für verschiedene Arten von Problemen besser geeignet ist. Zur Modelloptimierung müssen Sie verstehen, wie Sie die Genauigkeit der Vorhersage durch Merkmalsextraktion und Parameteranpassung verbessern können.
Sie können den gesamten Prozess der Datenanalyse, Data-Mining-Modellierung und Analyse über die scikit-learn-Bibliothek in Python implementieren.
Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonSo führen Sie eine Big-Data-Analyse in Python durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!