Maison > base de données > tutoriel mysql > Quelle est la différence entre un entrepôt de données et une base de données ?

Quelle est la différence entre un entrepôt de données et une base de données ?

青灯夜游
Libérer: 2020-10-19 16:37:19
original
44849 Les gens l'ont consulté

La différence entre l'entrepôt de données et la base de données : 1. La base de données stocke les données brutes sans aucun traitement ; tandis que l'entrepôt de données est conçu pour répondre aux besoins d'analyse des données, et le processus ETL et le travail d'extraction de données sont effectués sur les données sources. Elles sont divisées en extraction, nettoyage, conversion et chargement ; 2. La quantité de données dans l'entrepôt de données est beaucoup plus grande que celle de la base de données.

Quelle est la différence entre un entrepôt de données et une base de données ?

(Tutoriel recommandé : Tutoriel vidéo MySQL)

Entrepôt de données

  1. Qu'est-ce qu'un entrepôt de données ?
    Data Warehouse, qui peut être abrégé en DW ou DWH, l'entrepôt de données est une collection stratégique de tous types de données pour le processus de prise de décision et de planification à tous les niveaux de l'entreprise. Il a été créé à des fins de reporting analytique et d’aide à la décision. Pour les entreprises qui ont besoin de business intelligence, elles doivent guider l'amélioration des processus métier, surveiller les délais, les coûts, la qualité et le contrôle, etc.
  2. Que peut faire un entrepôt de données ? (Pour donner quelques exemples)

    1. L'établissement d'objectifs de ventes annuels nécessite des décisions basées sur des rapports historiques passés et ne peut être fixé à la légère.
    2. Optimiser les processus commerciaux
      Par exemple : Pour une certaine marque de téléphone mobile sur une plateforme de commerce électronique, quelle est la tranche d'âge des principaux acheteurs au cours des cinq dernières années, au cours de cette saison ? des achats était important, de sorte que vous pouvez, sur la base de cette fonctionnalité, définir leurs principaux besoins pour le groupe cible et allouer dynamiquement le volume de production généré et l'inventaire de l'entrepôt.
  3. Caractéristiques de l'entrepôt de données

    1. L'entrepôt de données est orienté sujet.
      1. Contrairement aux bases de données traditionnelles, les entrepôts de données sont orientés sujet. Alors, qu'est-ce qu'un sujet ? Le thème de la page d'accueil est un concept d'ordre supérieur et fait l'objet d'une synthèse, d'une classification et d'une analyse des données dans le système d'information de l'entreprise à un niveau supérieur. Dans un sens logique, il s'agit d'un objet d'analyse impliqué dans un certain domaine d'analyse macro de l'entreprise. (En termes humains : ce sont les aspects clés qui préoccupent les utilisateurs lorsqu'ils utilisent des entrepôts de données pour prendre des décisions. Un sujet est généralement lié à plusieurs systèmes d'information opérationnels, et l'organisation des données des bases de données opérationnelles est orientée vers les tâches de traitement des transactions, et chaque la tâche est isolée les unes des autres);
    2. L'entrepôt de données est intégré.
      1. Les données de l'entrepôt de données sont extraites des données de base de données dispersées d'origine (mysql et autres bases de données relationnelles). Il existe une grande différence entre les bases de données opérationnelles et les bases de données analytiques DSS (système d'aide à la décision). Premièrement, les données sources correspondant à chaque sujet dans l'entrepôt de données présentent de nombreuses répétitions et différences dans toutes les bases de données dispersées, et les données provenant de différents systèmes en ligne sont regroupées avec des logiques d'application différentes. Deuxièmement, les données complètes de l'entrepôt de données ne peuvent pas être regroupées. obtenus directement à partir du système de base de données d'origine. Par conséquent, avant que les données n'entrent dans l'entrepôt de données, elles doivent passer par ununification et une synthèse. Cette étape est l'étape la plus critique et la plus complexe dans la construction de l'entrepôt de données. Le travail à effectuer est :
          Pour compter les sources Toutes les contradictions dans les données, telles que les champs portant le même nom, des noms et synonymes différents, des unités incohérentes, des longueurs de mots incohérentes, etc.
        1. Effectuer la synthèse et le calcul des données. Le travail de synthèse des données dans l'entrepôt de données peut être généré lorsque la base de données d'origine extrait les données, mais beaucoup d'entre elles sont générées à l'intérieur de l'entrepôt de données, c'est-à-dire qu'elles sont synthétisées après leur entrée dans l'entrepôt de données.
    3. Les données de l'entrepôt de données changent avec le temps.

      1. Les données de l'entrepôt de données ne peuvent pas être mises à jour pour les applications. C'est-à-dire que les utilisateurs de l'entrepôt de données n'effectuent pas d'opérations de mise à jour des données lors de l'analyse et du traitement. Mais cela ne signifie pas que toutes les données de l'entrepôt de données ne changeront jamais pendant tout le cycle de vie, depuis le début de l'intégration des données dans l'entrepôt de données jusqu'à leur suppression définitive.
      2. Les données de l'entrepôt de données changent avec le temps, ce qui est l'une des caractéristiques de l'entrepôt de données. Cette fonctionnalité a principalement les trois manifestations suivantes :

        1. L'entrepôt de données continue d'ajouter du nouveau contenu de données à mesure que le temps change. Le système d'entrepôt de données doit continuellement capturer les données changeantes dans la base de données OLTP et les ajouter à l'entrepôt de données, c'est-à-dire qu'il doit générer en permanence des instantanés de la base de données OLTP et les ajouter à l'entrepôt de données via une intégration unifiée, mais pour la base de données ; instantanés qui ne changent pas. Si de nouvelles données modifiées sont capturées, seul un nouvel instantané de base de données sera généré et ajouté sans modifier l'instantané de base de données d'origine.
        2. La base de données supprime continuellement les anciens contenus de données à mesure que l'heure change. Les données dans l'entrepôt de données ont également une période de stockage. Une fois cette période expirée, les données expirées seront supprimées. C'est simplement que la limite d'âge des données dans la base de données est beaucoup plus longue que la limite d'âge des données dans l'environnement opérationnel. Dans un environnement opérationnel, seuls 60 à 90 jours de données sont généralement sauvegardés, tandis que dans un entrepôt de données, les données sur une période plus longue (par exemple 5 à 10 ans) doivent être sauvegardées pour répondre aux exigences du DSS en matière de tendance. analyse.
        3. L'entrepôt de données contient une grande quantité de données complètes, et une grande partie de ces données complètes sont liées au temps. Par exemple, les données sont souvent synthétisées en fonction de périodes de temps, ou échantillonnées à certaines tranches horaires, etc. Ces données doivent être continuellement re-synthétisées à mesure que le temps change. Par conséquent, les caractéristiques des données de l'entrepôt de données incluent des éléments de temps pour indiquer la période historique des données.
    4. Les données de l'entrepôt de données ne peuvent pas être modifiées.
      1. Les données de l'entrepôt de données sont principalement utilisées pour l'analyse décisionnelle de l'entreprise. Les opérations de données impliquées sont principalement des requêtes de données, et généralement aucune opération de modification n'est effectuée. Les données de l'entrepôt de données reflètent le contenu des données historiques sur une longue période de temps. Il s'agit d'une collection d'instantanés de base de données à différents moments, ainsi que de données exportées basées sur des statistiques, une synthèse et une réorganisation de ces instantanés. traitement des données en ligne. Les bibliothèques de traitement en ligne dans la base de données sont intégrées et entrées dans l'entrepôt de données. Une fois que les données stockées dans l'entrepôt de données ont dépassé la période de stockage des données de l'entrepôt de données, les données seront supprimées de l'entrepôt de données actuel. Étant donné que l'entrepôt de données effectue uniquement des opérations de requête de données, le système de l'entrepôt de données est beaucoup plus simple que celui de la base de données. De nombreuses difficultés techniques liées aux systèmes de gestion de bases de données, telles que la protection de l'intégrité, le contrôle de la concurrence, etc., peuvent presque être éliminées dans la gestion des entrepôts de données. Cependant, comme la quantité de données interrogées dans l'entrepôt de données est souvent importante, des exigences plus élevées sont mises en avant pour l'interrogation des données, qui nécessite l'utilisation simultanée de diverses technologies d'indexation complexes, l'entrepôt de données est orienté vers la haute direction de ; les entreprises commerciales, et elles La convivialité de l'interface et la représentation des données de la requête de données mettent en avant des exigences plus élevées

2. La différence entre l'entrepôt de données et la base de données ;

  1. Avant de vouloir comprendre la différence, nous devons comprendre trois concepts Que sont les logiciels de base de données, les bases de données et les entrepôts de données ?
    1. Logiciel de base de données : C'est une sorte de logiciel (pas un client graphique qui se connecte à la base de données). Il est utilisé pour implémenter les processus logiques de base de données et appartient à la couche physique.
    2. Base de données : C'est un concept logique, un entrepôt utilisé pour stocker des données, mis en œuvre via un logiciel de base de données. La base de données est composée de nombreuses tables. Les tables sont bidimensionnelles et une seule table contient de nombreux champs. Les champs sont disposés en ligne et les données sont écrites dans le tableau ligne par ligne. Les tables de bases de données sont capables d'exprimer des relations multidimensionnelles en deux dimensions. Tels que : Oracle, DB2, MySQL, Sybase, MSSQL Server, etc.
    3. Entrepôt de données : il s'agit d'une mise à niveau du concept de base de données. Logiquement, il n'y a pas de différence entre une base de données et un entrepôt de données. Ce sont deux endroits où les données sont stockées via un logiciel de base de données. Cependant, en termes de volume de données, l'entrepôt de données est beaucoup plus grand que la base de données. L'entrepôt de données est principalement utilisé pour l'exploration de données et l'analyse de données afin d'aider les dirigeants à prendre des décisions ;
    4. Dans le système d'architecture informatique, une base de données doit exister et il doit y avoir un endroit pour stocker les données. Par exemple, les achats en ligne actuels et autres commerces électroniques. L’inventaire des articles, le prix des articles, le solde du compte de l’utilisateur, etc. Ces données sont stockées dans la base de données en arrière-plan. Ou la compréhension la plus simple concerne nos comptes et mots de passe actuels tels que WeChat, Weibo et QQ. La base de données d'arrière-plan doit être une table utilisateur avec au moins deux champs, à savoir le nom d'utilisateur et le mot de passe, puis nos données sont stockées dans la table ligne par ligne. Lorsque nous nous connectons, nous remplissons le nom d'utilisateur et le mot de passe, et les données seront renvoyées au backend pour correspondre aux données du tableau. Si la correspondance réussit, nous pouvons nous connecter. Si la correspondance échoue, une erreur sera signalée. Il s'agit de la base de données. La base de données est utilisée pour le travail dans l'environnement de production. Nous utilisons des bases de données pour toutes les applications liées aux affaires.
    5. L'entrepôt de données est l'une des technologies de la BI. La base de données étant liée à des applications métiers, il est impossible qu’une seule base de données contienne toutes les données d’une entreprise. La conception des tables de base de données est souvent conçue pour une certaine application. Par exemple, dans la fonction de connexion à l'instant, il n'y a que ces deux champs dans la table utilisateur et aucun autre champ. À ce moment-là, ce tableau répond à ce qu'il devrait être, et il n'y a pas de problème, mais ce tableau ne répond pas à l'analyse. Par exemple, je souhaite savoir pendant quelle période il y a le plus grand nombre d’utilisateurs ? Quel utilisateur achète le plus en un an ? Des indicateurs comme celui-ci. Ensuite, nous devons repenser la structure des tables de la base de données. Pour l'analyse et l'exploration de données, nous avons introduit le concept d'entrepôt de données. La structure des tableaux de l'entrepôt de données est conçue en fonction des exigences d'analyse, des dimensions d'analyse et des indicateurs d'analyse.
    6. La différence entre la base de données et l'entrepôt de données est en fait la différence entre OLTP et OLAP.
      1. Le traitement opérationnel, appelé Online Transaction Processing (OLTP) (On-Line Transaction Processing), peut également être appelé système de traitement orienté transaction. Il s'agit d'une opération quotidienne d'une entreprise spécifique en ligne dans la base de données, généralement. interroger un petit nombre d'enregistrements, réviser. Les utilisateurs sont davantage préoccupés par des problèmes tels que le temps de réponse des opérations, la sécurité des données, l'intégrité et le nombre d'utilisateurs pris en charge simultanément. En tant que principal moyen de gestion des données, les systèmes de bases de données traditionnels sont principalement utilisés pour le traitement opérationnel.
      2. Le traitement analytique, appelé traitement analytique en ligne OLAP (On-Line Analytical Processing), analyse généralement des données historiques sur certains sujets pour appuyer les décisions de gestion.
操作型处理 分析型处理
细节的 综合或者提炼的
实体-关系(E-R)模型 星型模型或雪花模型
存储瞬间数据 存储历史数据,不包含最近的数据
可更新的 只读、只追加
一次操作一个单元 一次操作一个集合
性能要求高,响应时间短 性能要求宽松
面向事务 面向分析
一次操作数据量小 支持决策需求
数据量小 数据量大
客户订单、库存水平和银行账户查询 客户收益分析、市场细分

3. Queue

1 S'il y a des erreurs, veuillez les signaler et je les corrigerai. à temps. S'il y a quelque chose qui ne va pas. Si vous comprenez, vous pouvez également laisser un message pour poser des questions et communiquer entre vous.
2. Peut-être pensez-vous que ce n'est rien, mais je vais le prendre au sérieux et le traiter comme mes notes et mes expériences, afin de pouvoir m'améliorer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal