Heim > Datenbank > MySQL-Tutorial > Hauptteil

Was ist der Unterschied zwischen einem Data Warehouse und einer Datenbank?

青灯夜游
Freigeben: 2020-10-19 16:37:19
Original
44753 Leute haben es durchsucht

Der Unterschied zwischen Data Warehouse und Datenbank: 1. Die Datenbank speichert Rohdaten ohne jegliche Verarbeitung, während das Data Warehouse darauf ausgelegt ist, die Anforderungen der Datenanalyse und der Datenextraktion zu erfüllen ist in Extraktion und Reinigung, Konvertierung und Laden unterteilt. Die Datenmenge im Data Warehouse ist viel größer als die der Datenbank.

Was ist der Unterschied zwischen einem Data Warehouse und einer Datenbank?

(Empfohlenes Tutorial: MySQL-Video-Tutorial)

1. Data Warehouse

  1. Was ist ein Data Warehouse?
    Data Warehouse, abgekürzt als DW oder DWH, Data Warehouse ist eine strategische Sammlung aller Arten von Datentypen für den Entscheidungs- und Planungsprozess auf allen Ebenen des Unternehmens. Es wurde für analytische Berichts- und Entscheidungsunterstützungszwecke erstellt. Für Unternehmen, die Business Intelligence benötigen, müssen sie die Verbesserung von Geschäftsprozessen steuern, Zeit, Kosten, Qualität und Kontrolle usw. überwachen.
  2. Was kann ein Data Warehouse leisten? (Um ein paar Kastanien zu nennen)

    1. Die Festlegung jährlicher Umsatzziele erfordert Entscheidungen auf der Grundlage vergangener historischer Berichte und kann nicht zufällig festgelegt werden.
    2. Geschäftsprozess optimieren
      Beispiel: Wie alt war die Haupteinkaufsgruppe in den letzten 5 Jahren für eine bestimmte Mobiltelefonmarke auf einer bestimmten E-Commerce-Plattform? Damit kann die Zielgruppe anhand dieses Merkmals ihren Hauptbedarf festlegen und das resultierende Produktionsvolumen sowie den Lagerbestand dynamisch zuordnen.
  3. Funktionen des Data Warehouse

    1. Data Warehouse ist themenorientiert.
      1. Im Gegensatz zu herkömmlichen Datenbanken sind Data Warehouses themenorientiert. Was ist also ein Thema? Das Homepage-Thema ist ein übergeordnetes Konzept und Gegenstand der Datensynthese, -klassifizierung und -analyse im Unternehmensinformationssystem auf einer höheren Ebene. Im logischen Sinne handelt es sich um das Analyseobjekt, das an einem bestimmten Makroanalysebereich im Unternehmen beteiligt ist. (Menschlich ausgedrückt: Es sind die Schlüsselaspekte, die den Benutzern Sorgen bereiten, wenn sie Data Warehouses zur Entscheidungsfindung verwenden. Ein Thema bezieht sich normalerweise auf mehrere betriebliche Informationssysteme, und die Datenorganisation betrieblicher Datenbanken ist auf Transaktionsverarbeitungsaufgaben ausgerichtet Aufgabe ist voneinander isoliert.
    2. Das Data Warehouse ist integriert.
      1. Die Daten des Data Warehouse werden aus den ursprünglichen verstreuten Datenbankdaten (MySQL und andere relationale Datenbanken) extrahiert. Es gibt einen großen Unterschied zwischen operativen Datenbanken und analytischen DSS-Datenbanken (Decision Support System). Erstens weisen die Quelldaten, die jedem Thema im Data Warehouse entsprechen, in allen verstreuten Datenbanken viele Wiederholungen und Unterschiede auf, und die Daten aus verschiedenen Online-Systemen werden mit unterschiedlicher Anwendungslogik gebündelt direkt aus dem ursprünglichen Datenbanksystem bezogen. Bevor die Daten in das Data Warehouse gelangen, müssen sie daher einer Vereinheitlichung und Synthese unterzogen werden. Dieser Schritt ist der kritischste und komplexeste Schritt beim Aufbau des Data Warehouse. Die zu erledigende Arbeit besteht darin, alle Widersprüche zu zählen die Quelldaten, beispielsweise Felder mit demselben Namen, unterschiedlichen Namen und Synonymen, inkonsistenten Einheiten, inkonsistenten Wortlängen usw.
          Führen Sie eine Datensynthese und -berechnung durch. Die Datensynthesearbeit im Data Warehouse kann generiert werden, wenn die ursprüngliche Datenbank Daten extrahiert. Viele davon werden jedoch innerhalb des Data Warehouse generiert, dh sie werden nach dem Eintritt in das Data Warehouse synthetisiert.
      2. Die Daten im Data Warehouse ändern sich mit der Zeit.
    3. Die Daten im Data Warehouse können für Anwendungen nicht aktualisiert werden. Mit anderen Worten: Benutzer des Data Warehouse führen bei der Analyse und Verarbeitung keine Datenaktualisierungsvorgänge durch. Dies bedeutet jedoch nicht, dass sich alle Data Warehouse-Daten während des gesamten Lebenszyklus vom Beginn der Datenintegration über das Data Warehouse bis zur endgültigen Löschung niemals ändern werden.
        Die Daten im Data Warehouse ändern sich mit der Zeit, was eines der Merkmale des Data Warehouse ist. Diese Funktion weist hauptsächlich die folgenden drei Erscheinungsformen auf:
      1. Das Data Warehouse fügt im Laufe der Zeit weiterhin neue Dateninhalte hinzu. Das Data-Warehouse-System muss die sich ändernden Daten in der OLTP-Datenbank kontinuierlich erfassen und an das Data-Warehouse anhängen. Das heißt, es muss kontinuierlich Snapshots der OLTP-Datenbank generieren und diese durch eine einheitliche Integration zum Data-Warehouse hinzufügen Snapshots, die sich nicht ändern. Wenn neue geänderte Daten erfasst werden, wird nur ein neuer Datenbank-Snapshot generiert und hinzugefügt, ohne dass der ursprüngliche Datenbank-Snapshot geändert wird.
          Die Datenbank löscht fortlaufend alte Dateninhalte, wenn sich die Zeit ändert. Auch für die Daten im Data Warehouse gilt eine Speicherfrist. Nach Ablauf dieser Frist werden die abgelaufenen Daten gelöscht. Es ist nur so, dass die Datenaltersgrenze in der Datenbank viel länger ist als die Datenaltersgrenze in der Betriebsumgebung. In einer Betriebsumgebung werden im Allgemeinen nur 60 bis 90 Tage an Daten gespeichert, während in einem Data Warehouse Daten für einen längeren Zeitraum (z. B. 5 bis 10 Jahre) gespeichert werden müssen, um die Anforderungen von DSS an Trends zu erfüllen Analyse.
        1. Das Data Warehouse enthält eine große Menge umfassender Daten, und viele dieser umfassenden Daten beziehen sich auf die Zeit. Beispielsweise werden Daten häufig nach Zeiträumen synthetisiert oder in bestimmten Zeitabschnitten usw. erfasst. Diese Daten müssen im Laufe der Zeit kontinuierlich neu synthetisiert werden. Daher umfassen die Datenmerkmale des Data Warehouse Zeitelemente, um den historischen Zeitraum der Daten anzugeben.
      2. Die Daten im Data Warehouse können nicht geändert werden.
      1. Die Daten im Data Warehouse werden hauptsächlich für die Analyse von Unternehmensentscheidungen verwendet. Bei den beteiligten Datenoperationen handelt es sich hauptsächlich um Datenabfragen, und im Allgemeinen werden keine Änderungsoperationen durchgeführt. Die Daten im Data Warehouse spiegeln den Inhalt historischer Daten über einen langen Zeitraum wider. Es handelt sich um eine Sammlung von Datenbank-Snapshots zu verschiedenen Zeitpunkten sowie exportierte Daten basierend auf Statistiken, Synthese und Reorganisation dieser Snapshots Online-Verarbeitungsdaten. Die Bibliotheken zur Online-Verarbeitung in der Datenbank werden integriert und in das Data Warehouse eingegeben. Sobald die im Data Warehouse gespeicherten Daten die Datenspeicherfrist des Data Warehouse überschritten haben, werden die Daten aus dem aktuellen Data Warehouse gelöscht. Da das Data Warehouse nur Datenabfragevorgänge ausführt, ist das System im Data Warehouse viel einfacher als das System in der Datenbank. Viele technische Schwierigkeiten in Datenbankverwaltungssystemen, wie z. B. Integritätsschutz, Parallelitätskontrolle usw., können bei der Data Warehouse-Verwaltung nahezu beseitigt werden. Da jedoch die im Data Warehouse abgefragte Datenmenge oft groß ist, werden höhere Anforderungen an die Datenabfrage gestellt, die den gleichzeitigen Einsatz verschiedener komplexer Indizierungstechnologien erfordert. Das Data Warehouse ist auf die Geschäftsleitung ausgerichtet Handelsunternehmen, und sie werden höhere Anforderungen an die Schnittstellenfreundlichkeit und Datendarstellung der Datenabfrage stellen Verstehen Sie drei Konzepte: Datenbanksoftware, Datenbank und Was ist ein Data Warehouse?
    4. Datenbanksoftware: Es handelt sich um eine Art Software (kein grafischer Client, der eine Verbindung zur Datenbank herstellt). Es wird zur Implementierung logischer Datenbankprozesse verwendet und gehört zur physischen Schicht.
  4. Datenbank: Es handelt sich um ein logisches Konzept, ein Lager zum Speichern von Daten, das durch Datenbanksoftware implementiert wird. Die Datenbank besteht aus vielen Tabellen. Die Tabellen sind zweidimensional und es gibt viele Felder in einer Tabelle. Die Felder werden in einer Zeile angeordnet und die Daten werden Zeile für Zeile in die Tabelle geschrieben. Datenbanktabellen sind in der Lage, mehrdimensionale Beziehungen in zwei Dimensionen auszudrücken. Zum Beispiel: Oracle, DB2, MySQL, Sybase, MSSQL Server usw.

Data Warehouse: Es handelt sich um ein Upgrade des Datenbankkonzepts. Logischerweise gibt es keinen Unterschied zwischen einer Datenbank und einem Data Warehouse. Beides sind Orte, an denen Daten über Datenbanksoftware gespeichert werden. Allerdings ist das Data Warehouse im Hinblick auf das Datenvolumen viel größer als die Datenbank. Data Warehouse wird hauptsächlich für Data Mining und Datenanalyse verwendet, um Führungskräften bei der Entscheidungsfindung zu helfen.

    Im IT-Architektursystem muss eine Datenbank vorhanden sein und es muss einen Ort zum Speichern von Daten geben. Zum Beispiel aktuelles Online-Shopping und sonstiger E-Commerce. Der Bestand an Artikeln, der Preis der Artikel, der Kontostand des Benutzers usw. Diese Daten werden in der Hintergrunddatenbank gespeichert. Oder das einfachste Verständnis sind unsere aktuellen Konten und Passwörter wie WeChat, Weibo und QQ. Die Hintergrunddatenbank muss eine Benutzertabelle mit mindestens zwei Feldern sein, nämlich Benutzername und Passwort, und dann werden unsere Daten Zeile für Zeile in der Tabelle gespeichert. Wenn wir uns anmelden, geben wir den Benutzernamen und das Passwort ein und die Daten werden an das Backend zurückgesendet, um sie mit den Daten in der Tabelle abzugleichen. Wenn der Abgleich erfolgreich ist, können wir uns anmelden. Wenn der Abgleich fehlschlägt, wird ein Fehler gemeldet. Dies ist die Datenbank, die für die Arbeit in der Produktionsumgebung verwendet wird. Wir nutzen Datenbanken für alle geschäftsrelevanten Anwendungen.

  1. Data Warehouse ist eine der Technologien unter BI. Da die Datenbank mit Geschäftsanwendungen verknüpft ist, ist es unmöglich, dass eine Datenbank alle Daten eines Unternehmens enthalten kann. Das Tabellendesign der Datenbank ist häufig auf eine bestimmte Anwendung ausgelegt. Beispielsweise gibt es in der Anmeldefunktion gerade nur diese beiden Felder in der Benutzertabelle und keine anderen Felder. Zu diesem Zeitpunkt erfüllt diese Tabelle das, was sie sein sollte, und es gibt kein Problem, aber diese Tabelle entspricht nicht der Analyse. Ich möchte zum Beispiel wissen, in welchem ​​Zeitraum es die meisten Benutzer gibt? Welcher Benutzer kauft in einem Jahr am meisten? Solche Indikatoren. Dann müssen wir die Tabellenstruktur der Datenbank neu gestalten. Für die Datenanalyse und das Data Mining haben wir das Konzept des Data Warehouse eingeführt. Die Tabellenstruktur des Data Warehouse wird entsprechend den Analyseanforderungen, Analysedimensionen und Analyseindikatoren gestaltet.
    1. Der Unterschied zwischen Datenbank und Data Warehouse bezieht sich tatsächlich auf den Unterschied zwischen OLTP und OLAP.
      1. Die operative Verarbeitung, die als Online-Transaktionsverarbeitung (OLTP) bezeichnet wird, kann auch als transaktionsorientiertes Verarbeitungssystem bezeichnet werden. Dabei handelt es sich um einen täglichen Vorgang eines bestimmten Unternehmens online in der Datenbank, bei dem normalerweise a abgefragt und geändert wird geringe Anzahl von Datensätzen. Benutzer sind mehr besorgt über Probleme wie die Reaktionszeit des Betriebs, die Datensicherheit, die Integrität und die Anzahl der gleichzeitig unterstützten Benutzer. Als Hauptmittel der Datenverwaltung werden für die betriebliche Verarbeitung überwiegend traditionelle Datenbanksysteme eingesetzt.
      2. Die analytische Verarbeitung, auch Online-Analyseverarbeitung OLAP (Online Analytical Processing) genannt, analysiert im Allgemeinen historische Daten zu bestimmten Themen, um Managemententscheidungen zu unterstützen.🔜 E-R) Modell
      Sternmodell oder Schneeflockenmodell
speichert aktuelle Daten. speichert historische Daten, ausgenommen aktuelle Daten. Lose LeistungsanforderungenKundenbestellungen, Lagerbestände und BankkontoanfragenKundenumsatzanalyse, Marktsegmentierung 2. Vielleicht denkst du, das sei nichts, aber ich werde es ernst nehmen und als meine Notizen und Erfahrungen behandeln, damit ich mich verbessern kann.
aktualisierbar. Kurze Reaktionszeit
Transaktionsorientiert Analyseorientiert
Kleine Datenmenge in einem Vorgang Unterstützung bei Entscheidungsanforderungen
Kleine Datenmenge Große Menge von Daten
Drei. Wenn es Fehler gibt, weisen Sie sie bitte darauf hin und ich werde sie korrigieren Wenn Sie nichts verstehen, machen Sie sich keine Sorgen. Können Sie eine Nachricht hinterlassen, um Fragen zu stellen und miteinander zu kommunizieren?

Das obige ist der detaillierte Inhalt vonWas ist der Unterschied zwischen einem Data Warehouse und einer Datenbank?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage