Wie viele Tools werden für die Big-Data-Analyse benötigt?-häufiges Problem-php.cn

Heim

häufiges Problem

Wie viele Tools werden für die Big-Data-Analyse benötigt?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:25 PM

大数据分析工具

1. Hadoop-bezogene Tools

1. Hadoop-Projekt hat fast das Äquivalent zu Big Data. Es wächst weiter und hat sich zu einem vollständigen Ökosystem mit vielen Open-Source-Tools für hochskalierbares verteiltes Computing entwickelt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

2.Ambari

Als Teil des Hadoop-Ökosystems bietet dieses Apache-Projekt eine intuitive webbasierte Schnittstelle zum Konfigurieren, Verwalten und Überwachen von Hadoop-Clustern. Für Entwickler, die Ambari-Funktionalität in ihre eigenen Anwendungen integrieren möchten, stellt Ambari eine API zur Verfügung, die REST (Representational State Transfer Protocol) nutzt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

3.Avro

Dieses Apache-Projekt bietet ein Datenserialisierungssystem mit umfangreichen Datenstrukturen und kompakten Formaten. Schemata werden in JSON definiert, das problemlos in dynamische Sprachen integriert werden kann.

4.Cascading

Cascading ist eine auf Hadoop basierende Anwendungsentwicklungsplattform. Bereitstellung von Unterstützungs- und Schulungsdiensten für Unternehmen.

5.Chukwa

Chukwa basiert auf Hadoop und kann Daten von großen verteilten Systemen zur Überwachung sammeln. Es enthält auch Tools zur Analyse und Anzeige von Daten.

Unterstützte Betriebssysteme: Linux und OSX.

6. Flume

Flume kann Protokolldaten von anderen Anwendungen sammeln und die Daten dann an Hadoop senden. Auf der offiziellen Website heißt es: „Es ist leistungsstark, fehlertolerant und verfügt über einen anpassbaren und optimierbaren Zuverlässigkeitsmechanismus sowie viele Failover- und Wiederherstellungsmechanismen.“

Unterstützte Betriebssysteme: Linux und OSX.

7.HBase

HBase ist für sehr große Tabellen mit Milliarden von Zeilen und Millionen von Spalten konzipiert. Es handelt sich um eine verteilte Datenbank, die eine Randomisierung für große Datenmengen durchführen kann Zugang. Es ähnelt in gewisser Weise Bigtable von Google, basiert jedoch auf Hadoop und dem Hadoop Distributed File System (HDFS).

8. Hadoop Distributed File System (HDFS)

HDFS ist ein Dateisystem für Hadoop, kann aber auch als unabhängiges verteiltes Dateisystem verwendet werden. Es basiert auf Java und ist fehlertolerant, hoch skalierbar und hoch konfigurierbar.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

9.Hive

ApacheHive ist ein Data Warehouse für das Hadoop-Ökosystem. Es ermöglicht Benutzern die Abfrage und Verwaltung großer Datenmengen mithilfe von HiveQL, einer SQL-ähnlichen Sprache.

10.Hivemall

Hivemall kombiniert eine Vielzahl von Algorithmen für maschinelles Lernen für Hive. Es umfasst viele hoch skalierbare Algorithmen für Datenklassifizierung, Rekursion, Empfehlung, k-nächste Nachbarn, Anomalieerkennung und Feature-Hashing.

11.Mahout

Laut der offiziellen Website besteht der Zweck des Mahout-Projekts darin, „eine Umgebung für den schnellen Aufbau skalierbarer, leistungsstarker Anwendungen für maschinelles Lernen zu schaffen“. HadoopMapReduce Es gibt viele Algorithmen für das Data Mining im Internet, darunter einige neuartige Algorithmen für Scala- und Spark-Umgebungen.

12.MapReduce

Als integraler Bestandteil von Hadoop bietet das MapReduce-Programmiermodell eine Methode zur Verarbeitung großer verteilter Datensätze. Es wurde ursprünglich von Google entwickelt, wird aber mittlerweile von mehreren anderen in diesem Artikel behandelten Big-Data-Tools verwendet, darunter CouchDB, MongoDB und Riak.

13.Oozie

Dieses Workflow-Planungstool wurde speziell für die Verwaltung von Hadoop-Aufgaben entwickelt. Es kann Aufgaben basierend auf Zeit oder Datenverfügbarkeit auslösen und lässt sich in MapReduce, Pig, Hive, Sqoop und viele andere verwandte Tools integrieren.

Unterstützte Betriebssysteme: Linux und OSX.

14.Pig

ApachePig ist eine Plattform für verteilte Big-Data-Analyse. Es basiert auf einer Programmiersprache namens PigLatin, die die Vorteile einer vereinfachten parallelen Programmierung, Optimierung und Skalierbarkeit bietet.

15.Sqoop

Unternehmen müssen häufig Daten zwischen relationalen Datenbanken und Hadoop übertragen, und Sqoop ist ein Tool, das diese Aufgabe erledigen kann. Es kann Daten in Hive oder HBase importieren und von Hadoop in ein relationales Datenbankverwaltungssystem (RDBMS) exportieren.

16.Spark

Als Alternative zu MapReduce ist Spark eine Datenverarbeitungs-Engine. Es soll bis zu 100-mal schneller als MapReduce sein, wenn es im Speicher verwendet wird, und bis zu 10-mal schneller als MapReduce, wenn es auf der Festplatte verwendet wird. Es kann mit Hadoop und Apache Mesos oder unabhängig davon verwendet werden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

17.Tez

Tez basiert auf Apache HadoopYARN, „einem Anwendungsframework, das den Aufbau eines komplexen gerichteten azyklischen Graphen für Aufgaben zur Datenverarbeitung ermöglicht.“ Es ermöglicht Hive und Pig, komplexe Aufgaben zu vereinfachen Andernfalls wären mehrere Schritte erforderlich.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

18.Zookeeper

Dieses Big-Data-Management-Tool gibt an, „ein zentraler Dienst zu sein, der zur Verwaltung von Konfigurationsinformationen, zum Benennen, zur Bereitstellung verteilter Synchronisierung und zur Bereitstellung von Gruppendiensten verwendet werden kann“. Knoten im Hadoop-Cluster, um miteinander zu koordinieren.

Unterstützte Betriebssysteme: Linux, Windows (nur für Entwicklungsumgebung geeignet) und OSX (nur für Entwicklungsumgebung geeignet).

Verwandte Empfehlungen: „

FAQ

“

2. Big-Data-Analyseplattformen und -Tools

19.Disco

Disco wurde ursprünglich von Nokia entwickelt. welches ebenfalls auf MapReduce basiert. Es umfasst ein verteiltes Dateisystem und eine Datenbank, die Milliarden von Schlüsseln und Werten unterstützen.

Unterstützte Betriebssysteme: Linux und OSX.

20. HPCC

Als Alternative zu Hadoop verspricht eine Big-Data-Plattform wie HPCC sehr hohe Geschwindigkeit und super Skalierbarkeit. Neben der kostenlosen Community-Version bietet HPCC Systems auch kostenpflichtige Enterprise-Versionen, kostenpflichtige Module, Schulungen, Beratung und andere Dienstleistungen an.

Unterstützte Betriebssysteme: Linux.

21. Lumify

Lumify gehört Altamira Technologies (bekannt für seine nationale Sicherheitstechnologie) und ist eine Open-Source-Big-Data-Integrations-, Analyse- und Visualisierungsplattform. Sie können einfach die Demoversion unter Try.Lumify.io ausprobieren, um sie in Aktion zu sehen.

Unterstützte Betriebssysteme: Linux.

22.Pandas

Das Pandas-Projekt umfasst Datenstrukturen und Datenanalysetools, die auf der Programmiersprache Python basieren. Es ermöglicht Unternehmen, Python als Alternative zu R für Big-Data-Analyseprojekte zu verwenden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

23.Storm

Storm ist jetzt ein Apache-Projekt, das die Echtzeitverarbeitung von Big Data ermöglicht (im Gegensatz zu Hadoop, das nur Batch-Task-Verarbeitung bietet). Zu seinen Nutzern zählen Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard und viele andere.

Unterstützte Betriebssysteme: Linux.

3. Datenbank/Data Warehouse

24.Blazegraph

Blazegraph hieß früher „Bigdata“ und ist ein hoch skalierbares, leistungsstarkes Datenbank. Es ist sowohl mit Open-Source- als auch mit kommerziellen Lizenzen erhältlich.

25. Cassandra

Diese NoSQL-Datenbank wurde ursprünglich von Facebook entwickelt und wird mittlerweile von mehr als 1.500 Unternehmensorganisationen verwendet, darunter Apple, die Europäische Organisation für Kernforschung (CERN), Comcast und Electronic Harbor , GitHub, GoDaddy, Hulu, Instagram, Intuit, Netfilx, Reddit und andere. Es kann sehr große Cluster unterstützen; das von Apple bereitgestellte Cassandra-System umfasst beispielsweise mehr als 75.000 Knoten und speichert mehr als 10 PB an Daten.

26.CouchDB

CouchDB ist als „eine Datenbank, die das Internet vollständig umfasst“ bekannt. Sie speichert Daten in JSON-Dokumenten, die über einen Webbrowser abgefragt und zur Verarbeitung mit JavaScript verwendet werden können. Es ist einfach zu bedienen, hochverfügbar und in einem verteilten Netzwerk skalierbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Android.

27.FlockDB

FlockDB wurde von Twitter entwickelt und ist eine sehr schnelle und skalierbare Diagrammdatenbank, die sich gut zum Speichern von Daten aus sozialen Netzwerken eignet. Obwohl es weiterhin zum Download verfügbar ist, wurde die Open-Source-Version des Projekts seit einiger Zeit nicht mehr aktualisiert.

28.Hibari

Dieses auf Erlang basierende Projekt behauptet, „ein verteiltes, geordnetes Schlüsselwertspeichersystem zu sein, das eine starke Konsistenz garantiert.“ Es wurde ursprünglich von Gemini Mobile Technologies entwickelt und wird heute von mehreren Telekommunikationsbetreibern in Europa und Asien verwendet.

29.Hypertable

Hypertable ist eine mit Hadoop kompatible Big-Data-Datenbank, die eine extrem hohe Leistung verspricht. Zu ihren Nutzern gehören Electronic Harbor, Baidu, Gaopeng, Yelp und viele andere Internetunternehmen. Bereitstellung von Unterstützungsdiensten für Unternehmen.

Unterstützte Betriebssysteme: Linux und OSX.

30.Impala

Cloudera behauptet, dass die SQL-basierte Impala-Datenbank „die führende Open-Source-Analysedatenbank für Apache Hadoop“ ist. Es kann als eigenständiges Produkt heruntergeladen werden und ist Teil der kommerziellen Big-Data-Produkte von Cloudera.

Unterstützte Betriebssysteme: Linux und OSX.

31. InfoBright Community Edition

InfoBright wurde für die Datenanalyse entwickelt und ist eine spaltenorientierte Datenbank mit einem hohen Komprimierungsverhältnis. InfoBright.com bietet kostenpflichtige Produkte an, die auf demselben Code basieren, und bietet Supportdienste an.

Unterstützte Betriebssysteme: Windows und Linux.

32.MongoDB

Mit über 10 Millionen Downloads ist mongoDB eine äußerst beliebte NoSQL-Datenbank. Enterprise Edition, Support, Schulungen und zugehörige Produkte und Dienstleistungen sind auf MongoDB.com verfügbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Solaris.

Das obige ist der detaillierte Inhalt vonWie viele Tools werden für die Big-Data-Analyse benötigt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7530

CakePHP-Tutorial

1379

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Wie Debian die Hadoop -Datenverarbeitungsgeschwindigkeit verbessert Apr 13, 2025 am 11:54 AM

In diesem Artikel wird erläutert, wie die Effizienz der Hadoop -Datenverarbeitung auf Debian -Systemen verbessert werden kann. Optimierungsstrategien decken Hardware -Upgrades, Parameteranpassungen des Betriebssystems, Änderungen der Hadoop -Konfiguration und die Verwendung effizienter Algorithmen und Tools ab. 1. Hardware -Ressourcenverstärkung stellt sicher, dass alle Knoten konsistente Hardwarekonfigurationen aufweisen, insbesondere die Aufmerksamkeit auf die Leistung von CPU-, Speicher- und Netzwerkgeräten. Die Auswahl von Hochleistungs-Hardwarekomponenten ist wichtig, um die Gesamtverarbeitungsgeschwindigkeit zu verbessern. 2. Betriebssystem -Tunes -Dateideskriptoren und Netzwerkverbindungen: Ändern Sie die Datei /etc/security/limits.conf, um die Obergrenze der Dateideskriptoren und Netzwerkverbindungen zu erhöhen, die gleichzeitig vom System geöffnet werden dürfen. JVM-Parameteranpassung: Einstellen in der Hadoop-env.sh-Datei einstellen

So optimieren Sie die Leistung von Debian Readdir Apr 13, 2025 am 08:48 AM

In Debian -Systemen werden Readdir -Systemaufrufe zum Lesen des Verzeichnisinhalts verwendet. Wenn seine Leistung nicht gut ist, probieren Sie die folgende Optimierungsstrategie aus: Vereinfachen Sie die Anzahl der Verzeichnisdateien: Teilen Sie große Verzeichnisse so weit wie möglich in mehrere kleine Verzeichnisse auf und reduzieren Sie die Anzahl der gemäß Readdir -Anrufe verarbeiteten Elemente. Aktivieren Sie den Verzeichnis -Inhalt Caching: Erstellen Sie einen Cache -Mechanismus, aktualisieren Sie den Cache regelmäßig oder bei Änderungen des Verzeichnisinhalts und reduzieren Sie häufige Aufrufe an Readdir. Speicher -Caches (wie Memcached oder Redis) oder lokale Caches (wie Dateien oder Datenbanken) können berücksichtigt werden. Nehmen Sie eine effiziente Datenstruktur an: Wenn Sie das Verzeichnis -Traversal selbst implementieren, wählen Sie effizientere Datenstrukturen (z.

Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

So verwenden Sie NGINX -Protokolle, um die Geschwindigkeit der Website zu verbessern Apr 13, 2025 am 09:09 AM

Die Optimierung der Website-Leistungsoptimierung ist untrennbar mit einer detaillierten Analyse von Zugriffsprotokollen untrennwillig. NGINX -Protokoll zeichnet die detaillierten Informationen von Benutzern auf, die die Website besuchen. Wenn Sie diese Daten geschickt verwenden, können Sie die Geschwindigkeit der Website effektiv verbessern. In diesem Artikel werden mehrere Methoden zur Optimierungsoptimierungsmethoden für Website -Leistungsoptimierung vorgestellt. 1. Benutzerverhaltensanalyse und Optimierung. Durch die Analyse des NGINX-Protokolls können wir ein tiefes Verständnis des Benutzerverhaltens erlangen und gezielte Optimierung basierend auf diesem: Hochfrequenzzugriffs-IP-Identifizierung durchführen: Suchen Sie die IP-Adresse mit der höchsten Zugriffsfrequenz und optimieren Sie die Serverressourcenkonfiguration für diese IP-Adressen, z. B. die Erhöhung der Bandbreite oder die Verbesserung der Antwortgeschwindigkeit des spezifischen Inhalts. Statuscode -Analyse: Analysieren Sie die Häufigkeit verschiedener HTTP -Statuscodes (z. B. 404 Fehler), finden Sie Probleme in der Navigation oder des Inhaltsmanagements auf Website und fahren Sie fort

So upgraden Sie die Zookeeper -Version auf Debian auf Apr 13, 2025 am 10:42 AM

Das Upgrade der Zookeeper -Version auf Debian -System kann die folgenden Schritte ausführen: 1. Wenn Sie die vorhandenen Konfiguration und Daten vor einem Upgrade unterstützen, wird dringend empfohlen, die vorhandenen Zookeeper -Konfigurationsdateien und Datenverzeichnisse zu sichern. sudocp-r/var/lib/zookeeper/var/lib/zookeper_backupsudocp/etc/zookeper/conf/zoo.cfg/etc/zookeeper/conf/zookeeper/z

Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Apr 13, 2025 am 10:30 AM

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Wie man Debian Hadoop Log Management macht Apr 13, 2025 am 10:45 AM

Wenn Sie Hadoop-Protokolle auf Debian verwalten, können Sie die folgenden Schritte und Best Practices befolgen: Protokollaggregation Aktivieren Sie die Protokollaggregation: Set Garn.log-Aggregation-Enable in true in der Datei marn-site.xml, um die Protokollaggregation zu aktivieren. Konfigurieren von Protokoll-Retentionsrichtlinien: Setzen Sie Garn.log-Aggregation.Retain-Sekunden, um die Retentionszeit des Protokolls zu definieren, z. B. 172800 Sekunden (2 Tage). Log Speicherpfad angeben: über Garn.n