Sie können die Programmiersprache Python wählen, um Big Data zu lernen. Python verfügt über eine Bibliothek, die auf die Verarbeitung großer Datenmengen spezialisiert ist. Durch die Kombination mit der xlrd-Bibliothek können wir einige statistische Arbeiten zur Verarbeitung großer Datenmengen, beispielsweise Leistungstests, sehr bequem durchführen.
Big Data ist ein Begriff, der in den letzten Jahren sehr populär geworden ist, und viele Menschen kommen nicht umhin, sich mit dem Studium von Big Data zu beschäftigen. Aber wissen Sie, welche Sprache für Big Data verwendet wird?
1. Python-Sprache
Seit mehr als zehn Jahren erfreut sich Python in der Wissenschaft großer Beliebtheit, insbesondere in Bereichen wie der Verarbeitung natürlicher Sprache (NLP). Wenn Sie also ein Projekt haben, das eine NLP-Verarbeitung erfordert, stehen Sie vor einer schwindelerregenden Auswahl, darunter klassisches NTLK, Themenmodellierung mit GenSim oder das ultraschnelle und genaue spaCy. Wenn es um neuronale Netze geht, ist Python ebenfalls zu Hause, einschließlich Theano und Tensorflow, gefolgt von Scikit-Learn für maschinelles Lernen sowie NumPy und Pandas für die Datenanalyse.
Es gibt auch Juypter/iPython – ein webbasiertes Notebook-Server-Framework, mit dem Sie Code, Grafiken und praktisch jedes Objekt in einem gemeinsam nutzbaren Protokollformat mischen können. Dies war schon immer eines der Killer-Features von Python, aber heutzutage hat sich das Konzept als so nützlich erwiesen, dass es in fast allen Sprachen auftaucht, die das REPL-Konzept (Read-Read-Output-Loop) verfolgen, einschließlich Scala und R.
Python wird oft in Big-Data-Verarbeitungsframeworks unterstützt, ist aber gleichzeitig oft kein „Bürger erster Klasse“. Beispielsweise erscheinen neue Funktionen in Spark fast immer zuerst in den Scala/Java-Bindungen, und es kann erforderlich sein, mehrere Nebenversionen dieser Updates in PySpark zu schreiben (dies gilt insbesondere für Entwicklungstools in Spark Streaming/MLLib).
Im Gegensatz zu R ist Python eine traditionelle objektorientierte Sprache, daher werden sich die meisten Entwickler damit recht wohl fühlen, während der erste Kontakt mit R oder Scala einschüchternd sein wird. Ein kleines Problem besteht darin, dass Sie den richtigen Leerraum in Ihrem Code belassen müssen. Dies spaltet die Menschen in zwei Lager: diejenigen, die denken, „das ist sehr hilfreich, um die Lesbarkeit sicherzustellen“, und diejenigen, die denken, dass wir den Interpreter nicht zwingen sollten, das Programm lesen zu lassen, nur weil ein Zeichen in einer Codezeile nicht vorkommt Der richtige Ort. Machen Sie sich auf den Weg.
2. R-Sprache
In den letzten Jahren hat sich R-Sprache zum Liebling der Datenwissenschaft entwickelt – Datenwissenschaft ist mittlerweile nicht nur bei nerdigen Statistikern und Biologen beliebt und Entwickler aus dem Silicon Valley. Unternehmen in verschiedenen Branchen wie Google, Facebook, Bank of America und die New York Times nutzen R, und R verbreitet und vermehrt sich weiterhin für die kommerzielle Nutzung.
Die R-Sprache hat einen einfachen, aber offensichtlichen Reiz. Mit R können Sie mit nur wenigen Codezeilen komplexe Datensätze durchsuchen, Daten mit erweiterten Modellierungsfunktionen verarbeiten und flache Diagramme zur Darstellung von Zahlen erstellen. Es wurde mit einer hyperaktiven Version von Excel verglichen.
Der größte Vorteil von R ist das lebendige Ökosystem, das sich um ihn herum entwickelt hat: Die R-Community fügt ständig neue Pakete und Funktionen zu ihrem bereits umfangreichen Funktionsumfang hinzu. Schätzungen zufolge verwenden mehr als 2 Millionen Menschen R, und eine aktuelle Umfrage ergab, dass R mit Abstand die beliebteste Sprache für wissenschaftliche Daten ist und von 61 % der Befragten verwendet wird (gefolgt von Python mit 39 %).
3. JAVA
Es wurde festgestellt, dass Java und Java-basierte Frameworks zum Grundgerüst der größten High-Tech-Unternehmen im Silicon Valley geworden sind. „Wenn man sich Twitter, LinkedIn und Facebook anschaut, ist Java die zugrunde liegende Sprache für ihre gesamte Data-Engineering-Infrastruktur“, sagte Driscoll.
Java bietet nicht die gleiche Visualisierungsqualität wie R und Python und ist nicht die beste Wahl für statistische Modellierung. Wenn Sie jedoch über das Prototyping hinausgehen und große Systeme erstellen müssen, ist Java oft die beste Wahl.
Das obige ist der detaillierte Inhalt vonWelche Programmiersprache zum Erlernen von Big Data verwendet werden soll. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!