java – PHP oder Python für die Datenerfassung und -analyse, welche sind die ausgereifteren Frameworks?

WBOY
Freigeben: 2016-10-22 00:14:10
Original
1393 Leute haben es durchsucht

Ich muss jetzt automatisch Daten aus der Artikelliste einer Website und dem tatsächlichen Inhalt in der Liste sammeln. Die ID jedes Artikels kann in der Liste abgerufen werden, und jeder Artikel wird über eine einheitliche Schnittstelle gesammelt (der Parameter bringt diesen Artikel). Der entsprechende JSON kann über die ID abgerufen werden. Es enthält einige Daten, die gesammelt und dann analysiert werden müssen.

Gibt es ein ausgereiftes Framework oder Rad, das meine Anforderungen erfüllen kann? (Es erfordert Multithreading und kann rund um die Uhr stabil laufen, da die Anzahl der Sammlungen riesig ist)

Außerdem möchte ich fragen, wie die gesammelten Inhalte (Millionen bis Dutzende Millionen) gespeichert werden sollen. Die Daten enthalten einige numerische Daten, die einer statistischen Analyse bedürfen. Kann ich MySQL verwenden? Oder gibt es andere ausgereiftere und einfachere Räder, die verwendet werden können?

Antwortinhalt:

Ich muss jetzt automatisch Daten aus der Artikelliste einer Website und dem tatsächlichen Inhalt in der Liste sammeln. Die ID jedes Artikels kann in der Liste abgerufen werden, und jeder Artikel wird über eine einheitliche Schnittstelle gesammelt (der Parameter bringt diesen Artikel). Der entsprechende JSON kann über die ID abgerufen werden. Es enthält einige Daten, die gesammelt und dann analysiert werden müssen.

Gibt es ein ausgereiftes Framework oder Rad, das meine Anforderungen erfüllen kann? (Es erfordert Multithreading und kann rund um die Uhr stabil laufen, da die Anzahl der Sammlungen riesig ist)

Außerdem möchte ich fragen, wie die gesammelten Inhalte (Millionen bis Dutzende Millionen) gespeichert werden sollen. Die Daten enthalten einige numerische Daten, die einer statistischen Analyse bedürfen. Kann ich MySQL verwenden? Oder gibt es andere ausgereiftere und einfachere Räder, die verwendet werden können?

Wenn es sich um eine Datenanalyse handelt.
map-reduce führt eine Protokollanalyse durch
Dpark kann PV- und UV-Analysen lösen
Spark ist auch gut.
Nachdem Sie den Datenbericht erstellt haben, können Sie Pandas zur Analyse und Anzeige verwenden. .

Wenn es sich um eine Datenerfassung handelt. Es gibt viele Werkzeuge.

Warum glaube ich, dass Sie eine Suchmaschine erstellen möchten? . . Die Menge ist relativ groß. Verteilte Inhalte werden empfohlen.
Es ist nicht praktikabel, MYSQL zu verwenden. . .

Junger Mann, ist das nicht das, was Sie von einem Reptil erwarten?

  1. Crawler-Framework: Scrapy

  2. Datenbankauswahl: Die Verwendung von MySQL zur Indizierung auf Ihrem Niveau kann definitiv noch weitere 500 Jahre dauern

Sie können auch MongoDB ausprobieren

Sie haben weder die Sprache noch die Umgebung erwähnt. Für Multithreading werden derzeit im Allgemeinen NodeJS und Python verwendet. Beide können MySQL und dergleichen zum Speichern von Daten verwenden. Millionen oder mehrere zehn Millionen sind kein Problem.

Haben Sie jemals mit Python Selenium PhantomJs gespielt?

Das ist Scrapy in der Python-Sprache oder das ist

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage