BI笔记之---增量方式处理多维数据集-tutoriel mysql-php.cn

Maison

base de données

tutoriel mysql

BI笔记之---增量方式处理多维数据集

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:41 PM

本文将模拟一个数据仓库系统，其中有用户数据，产品数据以及订单数据。根据这些数据结构建立多维数据集，并且以增量更新的方式对其进行处理。之所以强调增量的方

本文将模拟一个数据仓库系统，其中有用户数据，产品数据以及订单数据。根据这些数据结构建立多维数据集，并且以增量更新的方式对其进行处理。

之所以强调增量的方式，是考虑到事实表中数据的增长，假设以后增长到几十亿，全量处理就变得很不现实，所以方案中着重演示以增量方式处理多维数据集的方案。

增量处理多维数据集的关键是要将事实数据分为两部分处理，一个是增量事实表，一个是历史事实表，多维数据集第一次处理历史事实表中的数据，以后每次周期性的处理都是处理增量表中的数据。

本文中提及的SQLServer和Visual Studio都是2008版本，2005版本同样也适用。

数据假设:一张用户表，一张产品表，一张订单表，订单里记录的是谁买了什么。多维数据集统计的需求就是根据订单统计谁买过什么。

首先，建立数据仓库，在数据引擎下新建BIDemo库。

clip_image002

接下来建立用户表，结构如下：

此外还有产品表：

以及历史订单表和建立增量订单表，它们的结构是一样的：

clip_image008

为了测试方便，香港空间，我们在用户表中加入一些测试数据：

clip_image010

然后在产品表中加入一些测试数据

clip_image012

至于事实表，手动加入测试数据就不现实了，所以这里写了一个程序利用随机数来灌测试数据：

clip_image014

这个程序的代码可以在本文中找到。生成后的数据基本如下所示：

clip_image016

到此，测试的数据结构以及数据就已经准备好了，相当于有了一个小型的数据仓库。

接下来在Visual Studio中建立BI解决方案，方案下分为一个SSIS项目和一个SSAS项目。

在SSAS项目下建立数据源和数据源视图，这里需要注意的是，事实表用历史表，而不是增量表，尽管其还没有数据。

首先建立数据源，连接刚才建立的数据库，并且在数据源视图里定义好关系，虚拟主机，如下图：

clip_image018

然后，根据此数据源视图建立多维数据集，需要注意的是，度量选择历史表，维度选择用户和产品两个表。

最后，部署多维数据集。这里只部署就可以了，不需要处理，处理任务将在以后的SSIS包中处理。

下面来看SSIS项目。在SSIS包里建立四个任务模块，类型分别如下：

clip_image020

前两个多维数据集处理模块是用来处理多维数据集的，数据流负责把增量事实表的数据导到历史事实表中，最后执行一个SQL任务把增量表中的数据删除。

两个多维数据集模块，前一个是专门处理维度，第二个是处理cube。这里之所以要把多维数据集维度处理单独拿出来放在前面，是因为在笔者经验中，对多维数据集的处理虽然是全部处理，但是新增维度的数据不会被聚合到其中，所以需要单独拿出来放在前面处理。

（题外话：对于这个地方笔者一直也不是很理解，按理说既然是全部处理那么怎么连维度都不处理呢，还需要单拿出来）

以下是设置维度处理模块，在界面中选择维度即可。

clip_image022

然后是cube处理模块，如下图。

clip_image024

然后指定增量更新，并且配置增量更新的数据表，这里指定增量表。

clip_image026

多维数据集处理完成之后就可以把增量表的数据放到历史表中了，以保证第二天加入的数据都是增量数据。

需要注意的是，在实际的运行当中，一定要保证BI的处理过程时业务系统没有发生数据，否则就会造成数据遗漏而导致不平。所以，BI的处理一般都是在凌晨。

然后是第三步的数据流模块，此部分的主要任务是将增量表的数据转移到历史表中。

clip_image028

最后的一个SQL任务是一个Delete或者Truncate table任务，把增量表里的数据清空。

最终的任务流程如下图：

clip_image030

执行包，全部成功之后应该如下图所示：

clip_image032

执行成功后，打开历史表，可以发现数据已经在里面了，而且增量表中的数据已经不存在了。

查询多维数据集，可以看到新的数据被聚合到其中。

clip_image034

通过以上透视表可以清晰的看到谁买了什么样的产品。

再次运行Rubbish往增量表里灌几条数据，然后重新运行此SSIS包，可以发现新增的数据已经被聚合到多维数据集中了，注意处理的方式是增量的。

本文提及的数据结构模型都很简单，主要介绍的是多维数据集处理的流程以及方法，重点阐述增量部分的方案，以及需要注意的问题。希望有知道更好方法的兄弟一起交流探讨。

本文提及的相关数据库，项目文件以及程序下载

FAQ:

1.增量数据是怎么来的？

笔者个人认为这个需要跟业务系统配合来做，比如加入触发器等。或者通过时间戳，到业务系统中能提取到。

2.如果有更新和删除怎么办？

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

Économie dans R.E.P.O. Expliqué (et enregistrer des fichiers)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7563

Tutoriel CakePHP

1384

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Expliquez les capacités de recherche en texte intégral InNODB. Apr 02, 2025 pm 06:09 PM

Les capacités de recherche en texte intégral d'InNODB sont très puissantes, ce qui peut considérablement améliorer l'efficacité de la requête de la base de données et la capacité de traiter de grandes quantités de données de texte. 1) INNODB implémente la recherche de texte intégral via l'indexation inversée, prenant en charge les requêtes de recherche de base et avancées. 2) Utilisez la correspondance et contre les mots clés pour rechercher, prendre en charge le mode booléen et la recherche de phrases. 3) Les méthodes d'optimisation incluent l'utilisation de la technologie de segmentation des mots, la reconstruction périodique des index et l'ajustement de la taille du cache pour améliorer les performances et la précision.

Comment modifier une table dans MySQL en utilisant l'instruction ALTER TABLE? Mar 19, 2025 pm 03:51 PM

L'article discute de l'utilisation de l'instruction ALTER TABLE de MySQL pour modifier les tables, notamment en ajoutant / abandon les colonnes, en renommant des tables / colonnes et en modifiant les types de données de colonne.

Quand une analyse de table complète pourrait-elle être plus rapide que d'utiliser un index dans MySQL? Apr 09, 2025 am 12:05 AM

La numérisation complète de la table peut être plus rapide dans MySQL que l'utilisation d'index. Les cas spécifiques comprennent: 1) le volume de données est petit; 2) Lorsque la requête renvoie une grande quantité de données; 3) Lorsque la colonne d'index n'est pas très sélective; 4) Lorsque la requête complexe. En analysant les plans de requête, en optimisant les index, en évitant le sur-index et en maintenant régulièrement des tables, vous pouvez faire les meilleurs choix dans les applications pratiques.

Puis-je installer mysql sur Windows 7 Apr 08, 2025 pm 03:21 PM

Oui, MySQL peut être installé sur Windows 7, et bien que Microsoft ait cessé de prendre en charge Windows 7, MySQL est toujours compatible avec lui. Cependant, les points suivants doivent être notés lors du processus d'installation: téléchargez le programme d'installation MySQL pour Windows. Sélectionnez la version appropriée de MySQL (communauté ou entreprise). Sélectionnez le répertoire d'installation et le jeu de caractères appropriés pendant le processus d'installation. Définissez le mot de passe de l'utilisateur racine et gardez-le correctement. Connectez-vous à la base de données pour les tests. Notez les problèmes de compatibilité et de sécurité sur Windows 7, et il est recommandé de passer à un système d'exploitation pris en charge.

Différence entre l'index cluster et l'index non cluster (index secondaire) dans InnODB. Apr 02, 2025 pm 06:25 PM

La différence entre l'index cluster et l'index non cluster est: 1. Index en cluster stocke les lignes de données dans la structure d'index, ce qui convient à la requête par clé et plage primaire. 2. L'index non clumpant stocke les valeurs de clé d'index et les pointeurs vers les lignes de données, et convient aux requêtes de colonne de clés non primaires.

Quels sont les outils de GUI MySQL populaires (par exemple, MySQL Workbench, PhpMyAdmin)? Mar 21, 2025 pm 06:28 PM

L'article traite des outils de GUI MySQL populaires comme MySQL Workbench et PhpMyAdmin, en comparant leurs fonctionnalités et leur pertinence pour les débutants et les utilisateurs avancés. [159 caractères]

Comment gérez-vous les grands ensembles de données dans MySQL? Mar 21, 2025 pm 12:15 PM

L'article traite des stratégies pour gérer de grands ensembles de données dans MySQL, y compris le partitionnement, la rupture, l'indexation et l'optimisation des requêtes.

Comment déposez-vous une table dans MySQL à l'aide de l'instruction TABLE DROP? Mar 19, 2025 pm 03:52 PM

L'article discute de la suppression des tables dans MySQL en utilisant l'instruction TABLE DROP, mettant l'accent sur les précautions et les risques. Il souligne que l'action est irréversible sans sauvegardes, détaillant les méthodes de récupération et les risques potentiels de l'environnement de production.

See all articles