ホームページ よくある問題 統合データ ウェアハウスを使用してデータ サイロを解消: Apache Doris に基づく CDP

統合データ ウェアハウスを使用してデータ サイロを解消: Apache Doris に基づく CDP

Mar 20, 2024 pm 01:47 PM
データベース ユーザー登録

企業データ ソースがますます多様化するにつれて、データ サイロの問題が一般的になってきました。保険会社が顧客データ プラットフォーム (CDP) を構築する場合、コンポーネント集約型のコンピューティング レイヤーと、データ サイロによって引き起こされる分散したデータ ストレージの問題に直面します。これらの問題を解決するために、Apache Doris ベースの CDP 2.0 を採用し、Doris の統合データ ウェアハウス機能を使用してデータ サイロを打破し、データ処理パイプラインを簡素化し、データ処理効率を向上させました。

統合データ ウェアハウスを使用してデータ サイロを解消: Apache Doris に基づく CDP

データ サイロ問題は、オンライン ビジネスにとって関節炎のようなものです。年齢を重ねると、ほぼすべての人がこの問題に遭遇するからです。企業は、Web サイト、モバイル アプリ、HTML5 ページ、エンド デバイスを通じて顧客とやり取りします。何らかの理由で、これらすべてのソースからのデータを統合するのは困難です。データは所定の位置に残り、さらなる分析のために相互に関連付けることはできません。これがデータサイロの形成方法です。ビジネスが大きくなるほど、顧客データのソースは多様化し、データサイロに閉じ込められる可能性が高くなります。

まさにそれが、この記事で取り上げる保険会社で起こったことです。 2023 年までに、同社は 5 億人以上の顧客にサービスを提供し、570 億件の保険契約を締結しました。このような大規模なデータに対応するために顧客データ プラットフォーム (CDP) の構築を開始したとき、複数のコンポーネントを使用しました。

CDP のデータ サイロ

ほとんどのデータ プラットフォームと同様、CDP 1.0 にはバッチ パイプラインとリアルタイム ストリーミング パイプラインの両方があります。オフライン データは Spark ジョブを介して Impala にロードされ、そこでラベルが付けられ、グループに分割されます。同時に、Spark は OneID 計算のためにそれを NebulaGraph に送信します (これについてはこの記事で後ほど説明します)。一方、リアルタイム データは Flink によってタグ付けされ、クエリのために HBase に保存されます。

これにより、CDP にはコンポーネント集中型のコンピューティング レイヤー (Impala、Spark、NebulaGraph、HBase) が誕生します。

その結果、オフライン ラベル、ライブ ラベル、グラフ データが複数のコンポーネントに分散されます。これらを統合してさらなるデータ サービスを提供すると、冗長ストレージと大量のデータ転送が発生するためコストがかかります。さらに重要なのは、ストレージの違いにより、CDH クラスターと NebulaGraph クラスターの規模を拡張する必要があり、リソースとメンテナンスのコストが増加したことです。

Apache Doris ベースの CDP

CDP 2.0 では、混乱を解消するための統合ソリューションを導入することにしました。 CDP 2.0 のコンピューティング層では、Apache Doris がリアルタイムおよびオフラインのデータ ストレージと計算を担当します。

オフライン データを取り込むために、ストリーム ロード方式を利用します。 30 スレッドの取り込みテストでは、1 秒あたり 300,000 を超える更新挿入を実行できることがわかりました。リアルタイム データをロードするには、Flink-Doris-Connector と Stream Load を組み合わせて使用​​しました。さらに、複数の外部データ ソースからデータを取得する必要があるリアルタイム レポートでは、フェデレーション クエリのマルチ カタログ機能を活用します。

この CDP における顧客分析のワークフローは次のとおりです。まず顧客情報を整理し、各顧客にラベルを付けます。よりターゲットを絞った分析とアクションを実現するために、タグに従って顧客をグループ化します。

次に、これらのワークロードを詳しく調べて、Apache Doris がどのようにワークロードを高速化するかを示します。

One ID

製品やサービスのユーザー登録システムが異なる場合に、このような状況に遭遇したことはありませんか?ある製品ページからユーザー ID A の電子メールを収集し、別の製品ページからユーザー ID B の社会保障番号を収集できます。その後、UserID A と UserID B は同じ電話番号を使用しているため、実際には同じ人物に属していることがわかります。

これが、OneID がアイデアとして浮上した理由です。すべての業種のユーザー登録情報を Apache Doris の大きなテーブルに収集して整理し、各ユーザーが固有の OneID を持つようにするためです。

これは、Apache Doris の機能を利用して、どの登録が同じユーザーに属しているかを判断する方法です。

タグ サービス

この CDP は、500 を超えるソース テーブルから得られる 5 億件の顧客情報に対応し、合計 2,000 を超えるタグが付けられています。

タグは適時性に応じて、リアルタイム タグとオフライン タグに分類できます。リアルタイム タグは Apache Flink によって計算され、Apache Doris のフラット テーブルに書き込まれます。一方、オフライン タグは、Doris のユーザー属性テーブル、ビジネス テーブル、およびユーザー行動テーブルから生成されるため、Apache Doris によって計算されます。データ ラベル付けにおける同社のベスト プラクティスは次のとおりです:

1. オフライン タグ

データ書き込みのピーク期間中は、データの規模が大きいため、更新は非常に難しく、OOM エラーが発生しやすいです。これを回避するために、Apache Doris の INSERT INTO SELECT 機能を活用し、部分的な列の更新を有効にしました。これにより、メモリ消費が大幅に削減され、データ読み込み中のシステムの安定性が維持されます。

enable_unique_key_partial_update=true を設定します。
tb_label_result(one_id, labelxx) に挿入
one_id、label_value を labelxx として選択します
from .....
ログイン後にコピー

2. ライブ タグ

ライブ タグであっても更新速度が異なるため、部分的な列の更新はライブ タグにも使用できます。必要なのは、partial_columns を true に設定することだけです。

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http ://127.0.0.1:48037/api/db1/user_profile/_stream_load
ログイン後にコピー

3. 高同時実行ポイント クエリ

現在のビジネス規模では、会社は次のクエリを使用しています。 5000 QPS を超える同時実行レベルでタグ クエリ リクエストを受信します。彼らは高いパフォーマンスを確保するために戦略を組み合わせて使用​​します。まず、Prepared Statement を使用して SQL をプリコンパイルし、事前実行します。次に、Doris バックエンドとテーブルのパラメーターを微調整して、ストレージと実行を最適化します。最後に、列指向の Apache Doris を補完するものとして行キャッシュが有効になります。

Doris のバックエンド パラメータを微調整する be.conf:

disable_storage_row_cache = false
storage_page_cache_limit=40%
ログイン後にコピー

テーブル作成時のテーブル パラメータの微調整:

enable_unique_key_merge_on_write = true
ストア行列 = true
light_schema_change = true
ログイン後にコピー

4. タグ計算 (結合)

実際には、多くのタグ サービスはデータベース内の複数テーブル接続を通じて実装されます。通常、これには 10 を超えるテーブルが含まれます。最高のコンピューティング パフォーマンスを得るために、Doris で同じ場所に配置されたグループ ポリシーを採用しました。

顧客グループ化

CDP 2.0 の顧客グループ化パイプラインは次のとおりです。Apache Doris は顧客サービスから SQL を受け取り、計算を実行し、SELECT を通じて結果セットを送信します。 INTO OUTFILE S3 オブジェクト ストレージに送信します。同社は顧客を 100 万のグループに分けました。 Impala では 50 秒かかっていた顧客のグループ化タスクが、Doris ではわずか 10 秒で完了します。

より詳細な分析のために顧客をグループ化することに加えて、場合によっては逆分析も実行します。つまり、特定の顧客について、その顧客がどのグループに属しているかを調べます。これは、アナリストが顧客の特徴と、さまざまな顧客グループがどのように重なるかを理解するのに役立ちます。

Apache Doris では、これは BITMAP 関数によって実現されます。BITMAP_CONTAINS は顧客が特定のグループに属しているかどうかを確認する簡単な方法であり、BITMAP_OR、BITMAP_INTERSECT、および BITMAP_XOR は相互分析の選択肢です。

結論

CDP 1.0 から CDP 2.0 まで、保険会社は統合データ ウェアハウス Apache Doris を使用して Spark Impala HBase NebulaGraph を置き換えています。データサイロを打破し、データ処理パイプラインを簡素化することで、データ処理効率を向上させます。 CDP 3.0 では、リアルタイム タグとオフライン タグを組み合わせて顧客をグループ化し、より多様で柔軟な分析を実現したいと考えています。 Apache Doris コミュニティと VeloDB チームは、このアップグレード中もサポート パートナーであり続けます。

以上が統合データ ウェアハウスを使用してデータ サイロを解消: Apache Doris に基づく CDPの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bitget Wallet 取引所に登録できないのはなぜですか? Bitget Wallet 取引所に登録できないのはなぜですか? Sep 06, 2024 pm 03:34 PM

BitgetWallet 取引所に登録できない理由は、アカウント制限、サポートされていない地域、ネットワークの問題、システム メンテナンス、技術的障害などさまざまです。 BitgetWallet 取引所に登録するには、公式 Web サイトにアクセスして情報を入力し、規約に同意して登録を完了し、本人確認を行ってください。

なぜDouyinは2つのアカウントを持っているのですか?携帯電話に2つのTikTokをインストールするにはどうすればよいですか? なぜDouyinは2つのアカウントを持っているのですか?携帯電話に2つのTikTokをインストールするにはどうすればよいですか? May 06, 2024 pm 09:28 PM

デジタル時代において、ソーシャルメディアは人々の生活に不可欠な部分となっています。 Douyin は、中国で最も人気のあるショートビデオ プラットフォームの 1 つとして、多くのユーザーを魅了しています。アカウントを 2 つ登録しているユーザーもいます。では、Douyin はなぜ 2 つのアカウントを持っているのでしょうか?この記事では、この質問に答え、携帯電話に 2 つの Douyin アカウントをインストールする方法を説明します。 1. なぜDouyinは2つのアカウントを持っているのですか?機能の差別化: ユーザーによっては、コンテンツの種類や機能に基づいてアカウントを区別する場合があります。たとえば、あるアカウントは日常生活を共有するために使用され、別のアカウントは専門的なスキルを示すために使用されます。 2. プライバシー保護: 一部のユーザーは、2 つのアカウントを通じてプライバシーを保護し、生活と仕事を分離し、情報漏洩を回避したいと考えています。 3. インタラクションのニーズ: インタラクションのニーズにより、ユーザーによっては 2 つを登録する場合があります。

Douyinのスパークカラー変更ルールの詳しい説明は何ですか?条件に合わせた多彩なスパークカラー Douyinのスパークカラー変更ルールの詳しい説明は何ですか?条件に合わせた多彩なスパークカラー May 04, 2024 am 09:31 AM

ユーザー インタラクションを強化し、ユーザー エクスペリエンスを向上させるために、Douyin プラットフォームは興味深いインタラクティブ メカニズムである Spark を開始しました。ユーザーは、Douyin での一連のアクションを通じてスパークをアクティブ化し、アップグレードすることができます。異なる色は、異なる成果と名誉を表します。 Douyin Spark の色変更ルールを理解すると、ユーザーがより適切に参加して対話し、Douyin によってもたらされるソーシャルな楽しみを楽しむことができます。 1.Douyinのスパークカラー変更ルールの詳しい説明は何ですか? 1. 行動は、いいね、コメント、共有などのユーザーのインタラクティブな行動を活性化し、火花を散らす可能性があります。 2. レベルの向上 ユーザーのインタラクションが増えると、スパークは徐々にアップグレードされ、それに応じて色が変化します。 3. 色の変化 スパークの色の変化は、通常、ユーザーのインタラクション頻度、インタラクションの質、アクティビティへの参加に対する熱意に関連しています。 4. タスクが完了しました

Deepseekの公式ウェブサイトの入り口と最新のプロモーションアクティビティ Deepseekの公式ウェブサイトの入り口と最新のプロモーションアクティビティ Feb 19, 2025 pm 05:15 PM

Deepseekの公式Webサイトは現在、ユーザーにショッピングエクスペリエンスを提供するための複数の割引アクティビティを開始しています。新規ユーザーはサインアップして10ドルのクーポンを取得し、視聴者全員に15%の限定時間割引を享受します。友人は報酬を獲得することもできます。また、買い物時に贈り物を償還するためにポイントを蓄積することができます。イベントの締め切りは違う。

トマトの小説でタスクを完了する方法 トマトの小説でタスクを完了する方法 May 03, 2024 am 02:27 AM

トマトノベルズのタスクを完了すると、コインとポイントを獲得できます。 方法には、新規ユーザー登録のタスクを完了することが含まれます。毎日チェックインしてください。割り当てられた小説の章を読みます。指定した小説の章にコメントを残してください。友達を招待して登録してください。ソーシャル プラットフォームで小説を共有します。

中国本土でXT.COM取引所アカウントを登録するにはどうすればよいですか? 中国本土でXT.COM取引所アカウントを登録するにはどうすればよいですか? Aug 16, 2024 pm 06:51 PM

本土のユーザーは、次の手順で XT.COM 取引所に登録できます。 XT.COM 公式 Web サイトにアクセスします。右上隅の「登録」ボタンをクリックします。 「モバイル登録」オプションを選択します。本土の携帯電話番号を入力し、確認コードを取得して入力します。パスワードを設定します。認証を完了します。登録が完了しました。

セサミオープンドア公式ウェブサイト取引プラットフォームセサミオープンドア公式ウェブサイト交換登録の入り口 セサミオープンドア公式ウェブサイト取引プラットフォームセサミオープンドア公式ウェブサイト交換登録の入り口 Feb 28, 2025 am 10:57 AM

Gate.io Sesame Openは、Fiat Currency Trading、Currency Trading、Leveraged Trading、Perpetual Contracts、ETFレバレッジドトークン、ウェルスマネジメント、スタートアップの初期公募など、ユーザーにセキュリティ、安定性、オープン性、透明度を提供するなど、世界をリードするブロックチェーンデジタル資産取引プラットフォームです。

Douyinに複数のアカウントを登録するにはどうすればよいですか?複数のアカウントを管理するにはどうすればよいですか? Douyinに複数のアカウントを登録するにはどうすればよいですか?複数のアカウントを管理するにはどうすればよいですか? Apr 30, 2024 pm 01:25 PM

Douyin プラットフォームでは、多くのユーザーがさまざまなニーズを満たすために複数のアカウントを登録したいと考えています。では、Douyin に複数のアカウントを登録するにはどうすればよいでしょうか?登録後にこれらのアカウントを管理するにはどうすればよいですか?この記事では、ユーザーが Douyin プラットフォームをよりよく理解し、使用できるように、これら 2 つの問題について検討します。 1.Douyinに複数のアカウントを登録するにはどうすればよいですか? Douyin アカウントの登録: まず、ユーザーは携帯電話番号または電子メール アドレスを使用して Douyin アカウントを登録する必要があります。登録手続きでは、名前、性別、年齢などの個人情報を入力する必要があります。複数のアカウントを登録する: 最初のアカウントを登録した後、ユーザーは携帯電話番号または電子メールを介して新しいアカウントを再度登録できます。各アカウントの登録情報は、名前、性別、年齢など独立したものとする必要があります。 3. 注意事項: 複数のアカウントを登録する場合、ユーザーは以下の点に注意する必要があります。