Zu den Basistechnologien gehören: 1. Datenerfassung Es gibt vier Hauptquellen für die Datenerfassung, nämlich Managementinformationssystem, Webinformationssystem, physisches Informationssystem und wissenschaftliches Experimentiersystem. 2. Datenzugriff. 3. Infrastruktur wie Cloud-Speicher, verteilter Dateispeicher usw. 4. Datenverarbeitung: Sammeln, Organisieren, Bereinigen und Konvertieren von Daten aus verschiedenen Datensätzen, um einen neuen Datensatz zu generieren. 5. Statistische Analyse. 6. Data-Mining. 7. Modellvorhersage, wie z. B. Vorhersagemodelle, maschinelles Lernen, Modellierung und Simulation. 8. Ergebnispräsentation, z. B. Cloud Computing, Tag Cloud, Beziehungsdiagramm usw.
Die Betriebsumgebung dieses Artikels: Windows 7-System, Dell G3-Computer.
Zu den Grundtechnologien von Big Data gehören Datenerfassung, Datenzugriff, Infrastruktur, Datenverarbeitung, statistische Analyse, Data Mining, Modellvorhersage und Ergebnispräsentation.
1. Datenerfassung: Im Lebenszyklus von Big Data ist die Datenerfassung der erste Schritt. Gemäß der Klassifizierung von Anwendungssystemen, die Daten aus MapReduce generieren, gibt es vier Hauptquellen für die Erfassung großer Datenmengen: Managementinformationssysteme, Webinformationssysteme, physische Informationssysteme und wissenschaftliche Experimentiersysteme.
2. Datenzugriff: Der Zugriff auf Big Data erfolgt über unterschiedliche technische Wege und lässt sich grob in drei Kategorien einteilen. Kategorie 1 betrifft hauptsächlich groß angelegte strukturierte Daten. Kategorie 2 betrifft hauptsächlich halbstrukturierte und unstrukturierte Daten. Kategorie 3 steht vor einer Mischung aus strukturierten und unstrukturierten Big Data,
3 Infrastruktur: Cloud-Speicher, verteilter Dateispeicher usw.
4. Datenverarbeitung: Für verschiedene erfasste Datensätze kann es unterschiedliche Strukturen und Muster geben, wie z. B. Dateien, XML-Bäume, relationale Tabellen usw., was sich in der Heterogenität der Daten widerspiegelt. Für mehrere heterogene Datensätze ist eine weitere Integrationsverarbeitung oder Integrationsverarbeitung erforderlich. Nach dem Sammeln, Sortieren, Bereinigen und Konvertieren von Daten aus verschiedenen Datensätzen werden diese in einen neuen Datensatz generiert, um eine Vereinheitlichung für die anschließende Abfrage- und Analysedatenansicht bereitzustellen .
5. Statistische Analyse: Hypothesentest, Signifikanztest, Differenzanalyse, Korrelationsanalyse, T-Test, Varianzanalyse, Chi-Quadrat-Analyse, partielle Korrelationsanalyse, Distanzanalyse, Regressionsanalyse, einfache Regressionsanalyse, multiple Regressionsanalyse, schrittweise Regression, Regressionsvorhersage und Restanalyse, Ridge-Regression, logistische Regressionsanalyse, Kurvenschätzung, Faktoranalyse, Clusteranalyse, Hauptkomponentenanalyse, Faktoranalyse, schnelle Clustering-Methode und Clustering-Methode, Diskriminanzanalyse, Korrespondenzanalyse, multivariate Korrespondenzanalyse (optimale Skala). Analyse), Bootstrap-Technologie usw.
6. Data Mining: Derzeit ist es noch notwendig, bestehende Data Mining- und maschinelle Lerntechnologien zu entwickeln; , Ähnlichkeitsverbindungen usw. Big-Data-Fusionstechnologie; Durchbruch in der feldorientierten Big-Data-Mining-Technologie wie Benutzerinteressenanalyse, Netzwerkverhaltensanalyse und emotionaler semantischer Analyse.
7. Modellvorhersage: Vorhersagemodell, maschinelles Lernen, Modellierung und Simulation.
8. Ergebnispräsentation: Cloud Computing, Tag Cloud, Beziehungsdiagramm usw.
Das obige ist der detaillierte Inhalt vonWas sind die grundlegenden Technologien von Big Data?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!