Heim häufiges Problem Welche Data-Mining-Techniken gibt es?

Welche Data-Mining-Techniken gibt es?

Jun 10, 2021 pm 04:07 PM

Data-Mining-Technologien: 1. Statistische Technologie; , Grobe Menge; 11. Regressionsanalyse 13. Konzeptbeschreibung;

Welche Data-Mining-Techniken gibt es?

Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.

Data Mining ist der Prozess, potenziell nützliche Informationen und Wissen, das den Menschen im Voraus unbekannt ist, aus einer großen Menge unvollständiger, verrauschter, unscharfer und zufälliger Daten zu extrahieren.

Die Aufgabe des Data Mining besteht darin, Muster aus Datensätzen zu entdecken. Es gibt viele Arten von Mustern, die entsprechend ihrer Funktion entdeckt werden können: Vorhersagemuster und beschreibende Muster.

Es gibt viele Arten von Data-Mining-Technologien und je nach Klassifizierung unterschiedliche Klassifizierungsmethoden. Das Folgende konzentriert sich auf einige Techniken, die häufig beim Data Mining verwendet werden: statistische Techniken, Assoziationsregeln, geschichtsbasierte Analyse, genetische Algorithmen, Aggregationserkennung, Verbindungsanalyse, Entscheidungsbäume, neuronale Netze, Grobmengen, Fuzzy-Mengen, Regressionsanalyse, Differentialanalyse, Konzeptbeschreibung und andere dreizehn häufig verwendete Data-Mining-Techniken.

1. Statistische Technologie

Data Mining umfasst viele wissenschaftliche Bereiche und Technologien, wie zum Beispiel die statistische Technologie. Die Hauptidee beim Einsatz statistischer Technologie zum Mining von Datensätzen besteht darin, dass statistische Methoden ein Verteilungs- oder Wahrscheinlichkeitsmodell (z. B. eine Normalverteilung) für einen bestimmten Datensatz annehmen und dann entsprechende Methoden zum Mining gemäß dem Modell verwenden.

2. Assoziationsregeln

Datenassoziation ist eine wichtige Art von auffindbarem Wissen, das in der Datenbank vorhanden ist. Wenn die Werte von zwei oder mehr Variablen eine gewisse Regelmäßigkeit aufweisen, spricht man von Korrelation. Assoziationen können in einfache Assoziationen, zeitliche Assoziationen und kausale Assoziationen unterteilt werden. Der Zweck der Korrelationsanalyse besteht darin, das verborgene Korrelationsnetzwerk in der Datenbank zu finden. Manchmal ist die Korrelationsfunktion der Daten in der Datenbank nicht bekannt, und selbst wenn sie bekannt ist, ist sie unsicher, sodass die durch die Korrelationsanalyse generierten Regeln glaubwürdig sind.

3. Historische MBR-Analyse (Memory-based Reasoning)

Suchen Sie zunächst anhand empirischer Erkenntnisse nach ähnlichen Situationen und wenden Sie dann die Informationen aus diesen Situationen auf das aktuelle Beispiel an. Dies ist die Essenz von MBR (Memory Based Reasoning). MBR sucht zunächst nach Nachbarn, die dem neuen Datensatz ähnlich sind, und verwendet diese Nachbarn dann, um die neuen Daten zu klassifizieren und zu bewerten. Bei der Verwendung von MBR gibt es drei Hauptprobleme: die Entscheidung über die effizienteste Art der Darstellung der historischen Daten und die Entscheidung über die Distanzfunktion, die gemeinsame Funktion und die Anzahl der Nachbarn.

4. Genetische Algorithmen GA (Genetische Algorithmen)

basieren auf der Evolutionstheorie und nutzen Optimierungstechnologien wie genetische Kombination, genetische Variation und natürliche Selektion. Die Grundidee besteht darin, nach dem Prinzip „Überleben des Stärkeren“ eine neue Gruppe zu bilden, die sich aus den am besten geeigneten Regeln der aktuellen Gruppe und den Nachkommen dieser Regeln zusammensetzt. Typischerweise wird die Eignung einer Regel anhand ihrer Klassifizierungsgenauigkeit im Trainingsstichprobensatz bewertet.

5. Aggregationserkennung

Der Prozess der Gruppierung einer Sammlung physischer oder abstrakter Objekte in mehrere Klassen, die aus ähnlichen Objekten bestehen, wird Clustering genannt. Ein durch Clustering generierter Cluster ist eine Sammlung von Datenobjekten, die Objekten im selben Cluster ähneln und sich von Objekten in anderen Clustern unterscheiden. Der Grad der Unähnlichkeit wird basierend auf dem Attributwert des beschriebenen Objekts berechnet, und die Entfernung ist eine häufig verwendete Messmethode.

6. Link-Analyse

Link-Analyse, ihre grundlegende Theorie ist die Graphentheorie. Die Idee der Graphentheorie besteht darin, einen Algorithmus zu finden, der gute, aber keine perfekten Ergebnisse liefern kann, und nicht darin, einen Algorithmus zu finden, der eine perfekte Lösung liefert. Bei der Verbindungsanalyse wird davon ausgegangen, dass eine solche Analyse eine gute Analyse ist, wenn unvollständige Ergebnisse möglich sind. Mithilfe der Verbindungsanalyse können einige Muster aus dem Verhalten einiger Benutzer analysiert werden. Gleichzeitig können die generierten Konzepte auf eine breitere Benutzergruppe angewendet werden.

7. Entscheidungsbaum

Der Entscheidungsbaum bietet eine Möglichkeit, Regeln anzuzeigen, z. B. welcher Wert unter welchen Bedingungen erzielt wird.

8. Neuronales Netzwerk

Strukturell kann ein neuronales Netzwerk in Eingabeschicht, Ausgabeschicht und verborgene Schicht unterteilt werden. Jeder Knoten in der Eingabeschicht entspricht einer Prädiktorvariablen. Die Knoten der Ausgabeschicht entsprechen den Zielvariablen und es können mehrere Knoten vorhanden sein. Zwischen der Eingabeschicht und der Ausgabeschicht befindet sich die verborgene Schicht (für Benutzer neuronaler Netzwerke unsichtbar). Die Anzahl der verborgenen Schichten und die Anzahl der Knoten in jeder Schicht bestimmen die Komplexität des neuronalen Netzwerks.

Zusätzlich zu den Knoten der Eingabeschicht ist jeder Knoten des neuronalen Netzwerks mit vielen Knoten davor verbunden (als Eingabeknoten dieses Knotens bezeichnet). Jede Verbindung entspricht einem Gewicht Wxy und dem Wert davon Knoten sind alle Knoten, die ihn durchlaufen. Die Summe des Produkts aus dem Wert des Eingabeknotens und der entsprechenden Verbindungsgewichtung wird als Eingabe einer Funktion erhalten. Wir nennen diese Funktion die Aktivitätsfunktion oder die Squeeze-Funktion.

9. Grobes Set

Die grobe Mengenlehre basiert auf der Festlegung von Äquivalenzklassen innerhalb gegebener Trainingsdaten. Alle Datenproben, die eine Äquivalenzklasse bilden, sind unterschiedslos, das heißt, diese Proben sind für die Attribute, die die Daten beschreiben, äquivalent. Angesichts realer Daten gibt es häufig Klassen, die anhand der verfügbaren Attribute nicht unterschieden werden können. Grobe Mengen werden verwendet, um diese Klasse anzunähern oder grob zu definieren.

10. Fuzzy-Set-Theorie führt Fuzzy-Logik in das Data-Mining-Klassifizierungssystem ein und ermöglicht die Definition von „unscharfen“ Domänenwerten oder -grenzen. Die Fuzzy-Logik verwendet Wahrheitswerte zwischen 0,0 und 1,0, um den Grad darzustellen, in dem ein bestimmter Wert einem bestimmten Element entspricht, und nicht exakte Grenzwerte für Klassen oder Mengen. Fuzzy-Logik ermöglicht die Verarbeitung auf einem hohen Abstraktionsniveau.

11. Regressionsanalyse

Die Regressionsanalyse ist in lineare Regression, multiple Regression und nichtlineare Regression unterteilt. Bei der linearen Regression werden die Daten mit einer geraden Linie modelliert, während die multiple Regression eine Erweiterung der linearen Regression mit mehreren Prädiktorvariablen ist. Bei der nichtlinearen Regression werden dem linearen Grundmodell Polynomterme hinzugefügt, um ein nichtlineares Modell zu bilden.

12. Differentialanalyse

Der Zweck der Differentialanalyse besteht darin, Anomalien in den Daten zu finden, wie z. B. Rauschdaten, Betrugsdaten und andere abnormale Daten, um nützliche Informationen zu erhalten.

13. Konzeptbeschreibung

Die Konzeptbeschreibung besteht darin, die Konnotation eines bestimmten Objekttyps zu beschreiben und die relevanten Eigenschaften dieses Objekttyps zusammenzufassen. Die Konzeptbeschreibung ist in charakteristische Beschreibung und differenzielle Beschreibung unterteilt, während letztere die Unterschiede zwischen Objekten verschiedener Typen beschreibt. Die Generierung einer charakteristischen Beschreibung einer Klasse umfasst nur die gemeinsamen Merkmale aller Objekte in diesem Objekttyp.

Weitere Informationen zu diesem Thema finden Sie in der Spalte „FAQ

“!

Das obige ist der detaillierte Inhalt vonWelche Data-Mining-Techniken gibt es?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)