Heim > häufiges Problem > Was ist Data Mining?

Was ist Data Mining?

青灯夜游
Freigeben: 2020-07-24 11:53:14
Original
8139 Leute haben es durchsucht

Data Mining ist der Prozess der Extraktion unbekannter, aber potenziell nützlicher Informationen, die in großen Datenmengen verborgen sind. Das Ziel des Data Mining besteht darin, ein Entscheidungsmodell zu erstellen, um zukünftiges Verhalten auf der Grundlage vergangener Aktionsdaten vorherzusagen.

Was ist Data Mining?

Data Mining bezeichnet den Prozess der Suche nach Informationen, die in großen Datenmengen durch Algorithmen verborgen sind.

Data Mining hängt normalerweise mit der Informatik zusammen und erreicht die oben genannten Ziele durch viele Methoden wie Statistik, analytische Online-Verarbeitung, Informationsabruf, maschinelles Lernen, Expertensysteme (basierend auf früheren Faustregeln) und Mustererkennung.

Data Mining ist ein unverzichtbarer Bestandteil der Wissensermittlung in Datenbanken (KDD), und KDD ist der gesamte Prozess der Umwandlung von Rohdaten in nützliche Informationen. Dieser Prozess umfasst eine Reihe von Konvertierungsschritten von der Datenvorverarbeitung bis zur Nachverarbeitung Data-Mining-Ergebnisse.

Was ist Data Mining?

Der Ursprung des Data Mining

Forscher aus verschiedenen Disziplinen kamen zusammen und begannen, Tools zu entwickeln, die mit verschiedenen Datentypen umgehen können. Effizientere, skalierbarere Tools. Diese Arbeiten basieren auf den Methoden und Algorithmen, die zuvor von Forschern verwendet wurden, und gipfeln im Bereich des Data Mining.

Data Mining nutzt insbesondere Ideen aus den folgenden Bereichen: (1) Stichprobenziehung, Schätzung und Hypothesentests aus Statistiken (2) Suchalgorithmus-Modellierung von künstlicher Intelligenz, Mustererkennung und maschinellem Lernen. Technologie und Lerntheorie.

Data Mining hat auch schnell Ideen aus anderen Bereichen übernommen, darunter Optimierung, Evolutionsberechnung, Informationstheorie, Signalverarbeitung, Visualisierung und Informationsabruf.

Auch einige andere Bereiche spielen eine wichtige unterstützende Rolle. Datenbanksysteme bieten effiziente Unterstützung für Speicherung, Indizierung und Abfrageverarbeitung. Technologien, die sich aus dem Hochleistungsrechnen (Parallelrechnen) ableiten, sind oft wichtig für die Verarbeitung riesiger Datenmengen. Verteilte Technologien können auch bei der Verarbeitung riesiger Datenmengen hilfreich sein und sind umso wichtiger, wenn die Daten nicht zentral verarbeitet werden können.

Was ist Data Mining?

KDD (Knowledge Discovery from Database)

  • Datenbereinigung

    Rauschen eliminieren und inkonsistente Daten;

  • Datenintegration

    Mehrere Datenquellen können miteinander kombiniert werden

  • Datenauswahl

    Daten im Zusammenhang mit Analyseaufgaben aus der Datenbank extrahieren;

  • Datentransformation

    Transformieren und vereinheitlichen Sie die Daten in für das Mining geeignete Daten durch Zusammenfassungs- oder Aggregationsoperationen

  • Grundschritte des Data Mining

    mit intelligenten Methoden Datenmuster extrahieren;

  • Musterauswertung

    Identifizieren Sie wirklich interessante Muster, die Wissen basierend auf einem bestimmten Grad an Interesse darstellen.

  • Wissensdarstellung

    Verwenden Sie Visualisierungs- und Wissensdarstellungstechnologie, um Benutzern fundiertes Wissen bereitzustellen.

Was ist Data Mining?

Data-Mining-Methodik

  • Geschäftsverständnis

    Verstehen Sie die Ziele und Anforderungen des Projekts aus geschäftlicher Sicht, wandeln Sie dieses Verständnis dann durch theoretische Analyse in umsetzbare Data-Mining-Probleme um und formulieren Sie vorläufige Pläne zur Erreichung der Ziele

  • Datenverständnis

    Die Datenverständnisphase beginnt mit der Sammlung von Rohdaten, macht sich dann mit den Daten vertraut, identifiziert Probleme mit der Datenqualität, untersucht ein vorläufiges Verständnis der Daten und entdeckt interessante Teilmengen zur Formulierung der Informationshypothese

  • Datenvorbereitung (Datenvorbereitung)

    Die Datenvorbereitungsphase bezieht sich auf die Aktivität der Erstellung der für das Data Mining erforderlichen Informationen aus den unverarbeiteten Daten in den ursprünglichen Rohdaten. Datenvorbereitungsaufgaben können ohne vorgeschriebene Reihenfolge mehrmals durchgeführt werden. Der Hauptzweck dieser Aufgaben besteht darin, die erforderlichen Informationen aus dem Quellsystem gemäß den Anforderungen der Dimensionsanalyse zu erhalten, was eine Datenvorverarbeitung wie Datenkonvertierung, Bereinigung, Konstruktion und Integration erfordert 🎜>Modellieren

  • In dieser Phase geht es vor allem um die Auswahl und Anwendung verschiedener Modellierungstechniken. Gleichzeitig werden ihre Parameter so abgestimmt, dass optimale Werte erreicht werden. Normalerweise gibt es mehrere Modellierungstechniken für denselben Data-Mining-Problemtyp. Einige Technologien stellen besondere Anforderungen an die Datenform und müssen häufig zur Datenvorbereitungsphase zurückkehren.
  • Modellbewertung (Bewertung)

  • Vor der Modellbereitstellung und -freigabe Es ist notwendig, auf technischer Ebene zu beginnen. Wir beurteilen die Wirkung des Modells, untersuchen jeden Schritt der Modellerstellung und bewerten die Praktikabilität des Modells in tatsächlichen Geschäftsszenarien basierend auf den Geschäftszielen. Der Hauptzweck dieser Phase besteht darin, festzustellen, ob einige wichtige Geschäftsprobleme nicht vollständig berücksichtigt wurden.
  • Modellbereitstellung (Bereitstellung)

  • Nach dem Modell Wenn es abgeschlossen ist, wird es vom Modellbenutzer (Kunden) verwendet. Basierend auf dem aktuellen Hintergrund und dem Abschlussstatus des Ziels erfüllt das Paket die Nutzungsanforderungen des Geschäftssystems.

Was ist Data Mining?

Data-Mining-Aufgaben

Im Allgemeinen werden Data-Mining-Aufgaben in die folgenden zwei Kategorien unterteilt.

  • Vorhersageaufgabe. Das Ziel dieser Aufgaben besteht darin, den Wert eines bestimmten Attributs basierend auf dem Wert anderer Attribute vorherzusagen. Die vorherzusagenden Attribute werden im Allgemeinen als Zielvariablen oder abhängige Variablen bezeichnet, und die zur Vorhersage verwendeten Attribute werden als erklärende Variablen oder unabhängige Variablen bezeichnet.

  • Beschreiben Sie die Aufgabe . Ziel ist es, Muster (Korrelationen, Trends, Cluster, Trajektorien und Anomalien) abzuleiten, die die zugrunde liegenden Zusammenhänge in den Daten zusammenfassen. Deskriptive Data-Mining-Aufgaben sind häufig explorativer Natur und erfordern häufig Nachbearbeitungstechniken zur Überprüfung und Interpretation der Ergebnisse.

    Was ist Data Mining?

Prädiktive Modellierung (prädiktive Modellierung) Beinhaltet den Aufbau eines Modells für eine Zielvariable auf eine Weise, die die beschreibt Funktion der Variablen.

Es gibt zwei Arten von Vorhersagemodellierungsaufgaben: Klassifizierung zur Vorhersage diskreter Zielvariablen und Regression zur Vorhersage kontinuierlicher Zielvariablen.

Zum Beispiel ist die Vorhersage, ob ein Webbenutzer ein Buch in einem Online-Buchladen kaufen wird, eine Klassifizierungsaufgabe, da die Zielvariable binär ist, während die Vorhersage des zukünftigen Aktienkurses eine Regressionsaufgabe ist, da der Preis kontinuierlich ist -wertige Attribute.

Ziel beider Aufgaben ist es, ein Modell zu trainieren, um den Fehler zwischen dem vorhergesagten Wert und dem tatsächlichen Wert der Zielvariablen zu minimieren. Mithilfe prädiktiver Modelle können Kundenreaktionen auf Produktwerbung ermittelt, Störungen in den Ökosystemen der Erde vorhergesagt oder anhand von Testergebnissen festgestellt werden, ob ein Patient an einer Krankheit leidet.

Assoziationsanalyse wird verwendet, um Muster zu entdecken, die stark korrelierte Merkmale in Daten beschreiben.

Entdeckte Muster werden normalerweise in Form von Implikationsregeln oder Teilmengen von Merkmalen ausgedrückt. Da der Suchraum eine exponentielle Größe hat, besteht das Ziel der Korrelationsanalyse darin, die interessantesten Muster auf effiziente Weise zu extrahieren. Zu den Anwendungen der Assoziationsanalyse gehören das Auffinden von Genomen mit verwandten Funktionen, das Identifizieren von Webseiten, die Benutzer gemeinsam besuchen, und das Verstehen der Zusammenhänge zwischen verschiedenen Elementen des Klimasystems der Erde.

Clusteranalyse zielt darauf ab, eng verwandte Gruppen von Beobachtungen zu finden, sodass sich Beobachtungen, die zu demselben Cluster gehören, stärker voneinander unterscheiden als Beobachtungen, die zu verschiedenen Clustern gehören und möglichst ähnlich sind. Clustering kann verwendet werden, um verwandte Kunden zu gruppieren, Bereiche des Ozeans zu identifizieren, die das Klima der Erde erheblich beeinflussen, Daten zu komprimieren und vieles mehr.

Anomalieerkennung Die Aufgabe von besteht darin, Beobachtungen zu identifizieren, deren Merkmale sich deutlich von anderen Daten unterscheiden.

Solche Beobachtungen nennt man Anomalien oder Ausreißer. Das Ziel von Anomalieerkennungsalgorithmen besteht darin, echte Anomalien zu entdecken und zu vermeiden, dass normale Objekte fälschlicherweise als Anomalien gekennzeichnet werden. Mit anderen Worten: Ein guter Anomaliedetektor muss eine hohe Erkennungsrate und eine niedrige Fehlalarmrate aufweisen.

Zu den Anwendungen der Anomalieerkennung gehört die Erkennung von Betrug, Cyberangriffen, ungewöhnlichen Krankheitsmustern, Ökosystemstörungen und mehr.

Weitere Informationen zu diesem Thema finden Sie unter: PHP-Website für Chinesisch!

Das obige ist der detaillierte Inhalt vonWas ist Data Mining?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage