Maison Problème commun Briser les silos de données grâce à un entrepôt de données unifié : CDP basé sur Apache Doris

Briser les silos de données grâce à un entrepôt de données unifié : CDP basé sur Apache Doris

Mar 20, 2024 pm 01:47 PM
数据仓库 用户注册

À mesure que les sources de données des entreprises se diversifient de plus en plus, le problème des silos de données est devenu courant. Lorsque les compagnies d’assurance créent des plates-formes de données clients (CDP), elles sont confrontées au problème des couches informatiques à forte intensité de composants et du stockage des données dispersées causé par les silos de données. Afin de résoudre ces problèmes, ils ont adopté CDP 2.0 basé sur Apache Doris, en utilisant les capacités d'entrepôt de données unifiées de Doris pour briser les silos de données, simplifier les pipelines de traitement des données et améliorer l'efficacité du traitement des données.

Briser les silos de données grâce à un entrepôt de données unifié : CDP basé sur Apache Doris

Le problème des silos de données est comme l'arthrite pour les entreprises en ligne, car presque tout le monde y est confronté en vieillissant. Les entreprises interagissent avec les clients via des sites Web, des applications mobiles, des pages HTML5 et des appareils finaux. Pour une raison quelconque, l’intégration des données provenant de toutes ces sources est délicate. Les données restent là où elles se trouvent et ne peuvent pas être corrélées entre elles pour une analyse plus approfondie. C’est ainsi que se forment les silos de données. Plus votre entreprise grandit, plus vous disposez de sources de données client diversifiées et plus vous risquez de vous retrouver piégé dans des silos de données.

C’est exactement ce qui se passe avec les compagnies d’assurance dont je vais parler dans cet article. D’ici 2023, ils ont servi plus de 500 millions de clients et signé 57 milliards de contrats d’assurance. Lorsqu'ils ont commencé à créer leur plateforme de données client (CDP) pour s'adapter à une telle échelle de données, ils ont utilisé plusieurs composants.

Silos de données dans CDP

Comme la plupart des plates-formes de données, leur CDP 1.0 dispose à la fois de pipelines par lots et de pipelines de streaming en temps réel. Les données hors ligne sont chargées dans Impala via une tâche Spark, où elles sont étiquetées et divisées en groupes. Dans le même temps, Spark l'envoie également à NebulaGraph pour le calcul OneID (nous en parlerons plus loin dans cet article). D'autre part, les données en temps réel sont étiquetées par Flink puis stockées dans HBase pour requête.

Cela se traduit par une couche informatique à forte intensité de composants dans CDP : Impala, Spark, NebulaGraph et HBase.

En conséquence, les étiquettes hors ligne, les étiquettes en direct et les données graphiques sont dispersées sur plusieurs composants. Leur intégration pour fournir des services de données supplémentaires est coûteuse en raison du stockage redondant et des transferts de données volumineux. Plus important encore, en raison des différences de stockage, ils ont dû étendre l'échelle du cluster CDH et du cluster NebulaGraph, augmentant ainsi les coûts de ressources et de maintenance.

CDP basé sur Apache Doris

Pour CDP 2.0, ils ont décidé d'introduire une solution unifiée pour nettoyer les dégâts. Dans la couche informatique de CDP 2.0, Apache Doris est responsable du stockage et du calcul des données en temps réel et hors ligne.

Afin d'ingérer des données hors ligne, ils utilisent la méthode de chargement en streaming. Leur test d'ingestion de 30 threads a montré qu'il peut effectuer plus de 300 000 insertions de mises à jour par seconde. Pour charger des données en temps réel, ils ont utilisé une combinaison de Flink-Doris-Connector et Stream Load. De plus, dans le cadre des rapports en temps réel qui nécessitent d'extraire des données de plusieurs sources de données externes, ils exploitent les capacités multi-catalogues pour les requêtes fédérées.

Le workflow d'analyse client sur ce CDP est le suivant. Tout d’abord, ils organisent les informations sur les clients, puis étiquetent chaque client. Ils regroupent les clients selon des balises pour une analyse et des actions plus ciblées.

Ensuite, je vais plonger dans ces charges de travail et vous montrer comment Apache Doris les accélère.

One ID

Avez-vous déjà rencontré cette situation lorsque vos produits et services ont différents systèmes d'enregistrement des utilisateurs ? Vous pouvez collecter l'e-mail de l'ID utilisateur A à partir d'une page produit, puis collecter le numéro de sécurité sociale de l'ID utilisateur B à partir d'une autre page produit. Vous découvrirez alors que UserID A et UserID B appartiennent en réalité à la même personne car ils utilisent le même numéro de téléphone.

C’est pourquoi OneID est né de l’idée. Il s'agit de collecter les informations d'enregistrement des utilisateurs de tous les secteurs d'activité dans un grand tableau dans Apache Doris, de les organiser et de garantir que chaque utilisateur dispose d'un OneID unique.

C'est ainsi qu'ils exploitent les fonctionnalités d'Apache Doris pour déterminer quelles inscriptions appartiennent au même utilisateur.

Tag Service

Ce CDP héberge 500 millions d'informations clients provenant de plus de 500 tables sources avec un total de plus de 2000 balises attachées.

Selon l'actualité, les balises peuvent être divisées en balises en temps réel et balises hors ligne. Les balises en temps réel sont calculées par Apache Flink et écrites dans des tables plates dans Apache Doris, tandis que les balises hors ligne sont calculées par Apache Doris car elles proviennent de tables d'attributs utilisateur, de tables métier et de tables de comportement utilisateur dans Doris. Voici les meilleures pratiques de l'entreprise en matière d'étiquetage des données :

1. Étiquetage hors ligne

Pendant la période de pointe d'écriture de données, en raison de la grande échelle des données, les mises à jour complètes peuvent facilement entraîner des erreurs de MOO. Pour éviter cela, ils ont exploité la fonctionnalité INSERT INTO SELECT d'Apache Doris et activé les mises à jour partielles des colonnes. Cela réduira considérablement la consommation de mémoire et maintiendra la stabilité du système pendant le chargement des données.

set enable_unique_key_partial_update=true;
insert into tb_label_result(one_id, labelxx) 
select one_id, label_value as labelxx
from .....
Copier après la connexion

2. Live Labels

Des mises à jour partielles des colonnes sont également disponibles pour les étiquettes en direct, car même les étiquettes en direct se mettent à jour à des vitesses différentes. Il suffit de définir partial_columns sur true.

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http://127.0.0.1:48037/api/db1/user_profile/_stream_load
Copier après la connexion

3. Requête de point de concurrence élevée

以目前的业务规模,该公司正在以超过 5000 QPS 的并发水平接收标签查询请求。他们使用策略组合来保证高性能。首先,他们采用Prepared Statement来预编译和预执行SQL。其次,他们微调 Doris 后端和表的参数以优化存储和执行。最后,它们启用行缓存作为面向列的 Apache Doris 的补充。

微调 Doris 的后端参数be.conf:

disable_storage_row_cache = false                      
storage_page_cache_limit=40%
Copier après la connexion

创建表时微调表参数:

enable_unique_key_merge_on_write = true
store_row_column = true
light_schema_change = true
Copier après la connexion

4.标签计算(Join)

在实践中,很多标签服务都是通过数据库中的多表连接来实现的。这通常涉及 10 多个表。为了获得最佳的计算性能,他们在Doris中 采用了共置组策略。

客户分组

CDP 2.0 中的客户分组管道是这样的:Apache Doris 从客户服务接收 SQL,执行计算,并通过 SELECT INTO OUTFILE 将结果集发送到 S3 对象存储。该公司已将其客户分为100万组。过去在 Impala 中需要50 秒才能完成的客户分组任务,现在在 Doris 中只需要10 秒。 

除了对客户进行分组进行更细粒度的分析外,有时他们还会进行反向分析。即针对某个客户,找出他/她属于哪些群体。这有助于分析师了解客户的特征以及不同客户群体的重叠情况。

在 Apache Doris 中,这是通过 BITMAP 函数实现的:BITMAP_CONTAINS是检查客户是否属于某个组的快速方法, 、BITMAP_OR、BITMAP_INTERSECT和BITMAP_XOR是交叉分析的选择。 

结论

从CDP 1.0到CDP 2.0,保险公司采用统一数据仓库Apache Doris替代Spark+Impala+HBase+NebulaGraph。通过打破数据孤岛和简化数据处理管道,提高了数据处理效率。在CDP 3.0中,他们希望通过结合实时标签和离线标签来对客户进行分组,以进行更加多样化和灵活的分析。Apache Doris 社区和VeloDB团队将继续作为此次升级期间的支持合作伙伴。

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pourquoi ne puis-je pas m'inscrire à l'échange Bitget Wallet ? Pourquoi ne puis-je pas m'inscrire à l'échange Bitget Wallet ? Sep 06, 2024 pm 03:34 PM

Il existe diverses raisons pour lesquelles il est impossible de s'inscrire à l'échange BitgetWallet, notamment les restrictions de compte, les régions non prises en charge, les problèmes de réseau, la maintenance du système et les pannes techniques. Pour vous inscrire à l'échange BitgetWallet, veuillez visiter le site officiel, remplir les informations, accepter les conditions, terminer l'inscription et vérifier votre identité.

Pourquoi Douyin a-t-il deux comptes ? Comment installer deux TikToks sur un téléphone mobile ? Pourquoi Douyin a-t-il deux comptes ? Comment installer deux TikToks sur un téléphone mobile ? May 06, 2024 pm 09:28 PM

À l’ère du numérique, les réseaux sociaux font désormais partie intégrante de la vie des gens. Douyin, en tant que l'une des plateformes de vidéos courtes les plus populaires en Chine, a attiré un grand nombre d'utilisateurs. Certains utilisateurs ont même enregistré deux comptes. Alors, pourquoi Douyin a-t-il deux comptes ? Cet article répondra pour vous à cette question et vous expliquera comment installer deux comptes Douyin sur votre téléphone. 1. Pourquoi Douyin a-t-il deux comptes ? Différenciation fonctionnelle : certains utilisateurs différencient les comptes en fonction du type de contenu ou de la fonction. Par exemple, un compte est utilisé pour partager la vie quotidienne et un autre compte est utilisé pour démontrer des compétences professionnelles. 2. Protection de la vie privée : certains utilisateurs espèrent protéger leur vie privée via deux comptes, séparer leur vie privée de leur travail et éviter les fuites d'informations. 3. Besoins d'interaction : certains utilisateurs peuvent en enregistrer deux en raison de besoins d'interaction.

Quelle est l'explication détaillée des règles de changement de couleur des étincelles de Douyin ? Différentes couleurs d'étincelles répondent aux conditions Quelle est l'explication détaillée des règles de changement de couleur des étincelles de Douyin ? Différentes couleurs d'étincelles répondent aux conditions May 04, 2024 am 09:31 AM

Afin d'améliorer l'interaction et l'expérience utilisateur, la plateforme Douyin a lancé Spark, un mécanisme interactif intéressant. Les utilisateurs peuvent activer et améliorer leurs étincelles grâce à une série d'actions sur Douyin. Différentes couleurs représentent différentes réalisations et honneurs. Comprendre les règles de changement de couleur de Douyin Spark peut aider les utilisateurs à mieux participer et interagir, et à profiter du plaisir social apporté par Douyin. 1. Quelle est l’explication détaillée des règles de changement de couleur des étincelles de Douyin ? 1. Le comportement active les comportements interactifs des utilisateurs, tels que les likes, les commentaires, les partages, etc., qui peuvent activer des étincelles. 2. Amélioration du niveau À mesure que le comportement interactif de l'utilisateur augmente, les étincelles s'amélioreront progressivement et la couleur changera en conséquence. 3. Changement de couleur Le changement de couleur des étincelles est généralement lié à la fréquence d'interaction de l'utilisateur, à la qualité de l'interaction et à l'enthousiasme pour la participation aux activités. 4. La tâche est terminée

Entrance officielle du site officiel Deepseek et dernières activités promotionnelles Entrance officielle du site officiel Deepseek et dernières activités promotionnelles Feb 19, 2025 pm 05:15 PM

Le site officiel de Deepseek lance désormais plusieurs activités de réduction pour offrir aux utilisateurs une expérience d'achat. Les nouveaux utilisateurs s'inscrivent pour obtenir un coupon de 10 $ et profitez d'une remise à temps limitée de 15% pour l'ensemble de l'audience. Recommander des amis peut également gagner des récompenses, et vous pouvez accumuler des points pour le rachat de cadeaux lors du shopping. Les délais d'événements sont différents.

Comment accomplir des tâches dans le roman Tomato Comment accomplir des tâches dans le roman Tomato May 03, 2024 am 02:27 AM

Vous pouvez gagner des pièces et des points en accomplissant des tâches sur Tomato Novels. Les méthodes incluent : effectuer des tâches d'enregistrement de nouveaux utilisateurs. Enregistrez-vous quotidiennement. Lisez le chapitre du roman attribué. Laissez un commentaire sur le chapitre du roman spécifié. Invitez des amis à s'inscrire. Partagez des romans sur les plateformes sociales.

Comment enregistrer un compte d'échange XT.COM en Chine continentale ? Comment enregistrer un compte d'échange XT.COM en Chine continentale ? Aug 16, 2024 pm 06:51 PM

Les utilisateurs du continent peuvent s'inscrire sur l'échange XT.COM en suivant les étapes suivantes : Visitez le site officiel de XT.COM. Cliquez sur le bouton "S'inscrire" dans le coin supérieur droit. Sélectionnez l'option « Inscription mobile ». Saisissez votre numéro de téléphone mobile continental, obtenez et saisissez le code de vérification. Définissez un mot de passe. Authentification complète. Inscription terminée.

Plateforme de trading de sites Web officiels de la porte ouverte Sesame Sesame Entrée d'enregistrement d'échange de site Web Open Door Plateforme de trading de sites Web officiels de la porte ouverte Sesame Sesame Entrée d'enregistrement d'échange de site Web Open Door Feb 28, 2025 am 10:57 AM

Gate.io Sesame Open est la principale plate-forme de trading d'actifs numériques au monde, y compris le trading de devises Fiat, le trading de devises, le trading à effet de levier, les contrats perpétuels, les jetons à effet de levier ETF, la gestion de la patrimoine, l'offre publique initiale de démarrage et d'autres sections, offrant aux utilisateurs la sécurité, la stabilité, l'ouverture et la transparence.

Comment enregistrer plusieurs comptes sur Douyin ? Comment gérer plusieurs comptes ? Comment enregistrer plusieurs comptes sur Douyin ? Comment gérer plusieurs comptes ? Apr 30, 2024 pm 01:25 PM

Sur la plateforme Douyin, de nombreux utilisateurs peuvent souhaiter créer plusieurs comptes pour répondre à différents besoins. Alors, comment enregistrer plusieurs comptes sur Douyin ? Comment gérer ces comptes après inscription ? Cet article explorera ces deux problématiques pour aider les utilisateurs à mieux comprendre et utiliser la plateforme Douyin. 1. Comment enregistrer plusieurs comptes sur Douyin ? Enregistrement du compte Douyin : tout d'abord, les utilisateurs doivent créer un compte Douyin via leur numéro de téléphone mobile ou leur adresse e-mail. Lors du processus d'inscription, vous devez renseigner des informations personnelles, telles que votre nom, votre sexe, votre âge, etc. Enregistrez plusieurs comptes : après avoir enregistré le premier compte, l'utilisateur peut à nouveau enregistrer un nouveau compte via un numéro de téléphone mobile ou par e-mail. Les informations d'inscription pour chaque compte doivent rester indépendantes, telles que le nom, le sexe, l'âge, etc. 3. Remarques : Lors de l'enregistrement de plusieurs comptes, les utilisateurs doivent prêter attention aux points suivants : a.