統合データウェアハウスを使用してデータサイロを解消: Apache Doris に基づく CDP-よくある問題-php.cn

ホームページ

よくある問題

統合データウェアハウスを使用してデータサイロを解消: Apache Doris に基づく CDP

百草

Mar 20, 2024 pm 01:47 PM

データベースユーザー登録

企業データソースがますます多様化するにつれて、データサイロの問題が一般的になってきました。保険会社が顧客データプラットフォーム (CDP) を構築する場合、コンポーネント集約型のコンピューティングレイヤーと、データサイロによって引き起こされる分散したデータストレージの問題に直面します。これらの問題を解決するために、Apache Doris ベースの CDP 2.0 を採用し、Doris の統合データウェアハウス機能を使用してデータサイロを打破し、データ処理パイプラインを簡素化し、データ処理効率を向上させました。

統合データウェアハウスを使用してデータサイロを解消: Apache Doris に基づく CDP

データサイロ問題は、オンラインビジネスにとって関節炎のようなものです。年齢を重ねると、ほぼすべての人がこの問題に遭遇するからです。企業は、Web サイト、モバイルアプリ、HTML5 ページ、エンドデバイスを通じて顧客とやり取りします。何らかの理由で、これらすべてのソースからのデータを統合するのは困難です。データは所定の位置に残り、さらなる分析のために相互に関連付けることはできません。これがデータサイロの形成方法です。ビジネスが大きくなるほど、顧客データのソースは多様化し、データサイロに閉じ込められる可能性が高くなります。

まさにそれが、この記事で取り上げる保険会社で起こったことです。 2023 年までに、同社は 5 億人以上の顧客にサービスを提供し、570 億件の保険契約を締結しました。このような大規模なデータに対応するために顧客データプラットフォーム (CDP) の構築を開始したとき、複数のコンポーネントを使用しました。

CDP のデータサイロ

ほとんどのデータプラットフォームと同様、CDP 1.0 にはバッチパイプラインとリアルタイムストリーミングパイプラインの両方があります。オフラインデータは Spark ジョブを介して Impala にロードされ、そこでラベルが付けられ、グループに分割されます。同時に、Spark は OneID 計算のためにそれを NebulaGraph に送信します (これについてはこの記事で後ほど説明します)。一方、リアルタイムデータは Flink によってタグ付けされ、クエリのために HBase に保存されます。

これにより、CDP にはコンポーネント集中型のコンピューティングレイヤー (Impala、Spark、NebulaGraph、HBase) が誕生します。

その結果、オフラインラベル、ライブラベル、グラフデータが複数のコンポーネントに分散されます。これらを統合してさらなるデータサービスを提供すると、冗長ストレージと大量のデータ転送が発生するためコストがかかります。さらに重要なのは、ストレージの違いにより、CDH クラスターと NebulaGraph クラスターの規模を拡張する必要があり、リソースとメンテナンスのコストが増加したことです。

Apache Doris ベースの CDP

CDP 2.0 では、混乱を解消するための統合ソリューションを導入することにしました。 CDP 2.0 のコンピューティング層では、Apache Doris がリアルタイムおよびオフラインのデータストレージと計算を担当します。

オフラインデータを取り込むために、ストリームロード方式を利用します。 30 スレッドの取り込みテストでは、1 秒あたり 300,000 を超える更新挿入を実行できることがわかりました。リアルタイムデータをロードするには、Flink-Doris-Connector と Stream Load を組み合わせて使用しました。さらに、複数の外部データソースからデータを取得する必要があるリアルタイムレポートでは、フェデレーションクエリのマルチカタログ機能を活用します。

この CDP における顧客分析のワークフローは次のとおりです。まず顧客情報を整理し、各顧客にラベルを付けます。よりターゲットを絞った分析とアクションを実現するために、タグに従って顧客をグループ化します。

次に、これらのワークロードを詳しく調べて、Apache Doris がどのようにワークロードを高速化するかを示します。

One ID

製品やサービスのユーザー登録システムが異なる場合に、このような状況に遭遇したことはありませんか?ある製品ページからユーザー ID A の電子メールを収集し、別の製品ページからユーザー ID B の社会保障番号を収集できます。その後、UserID A と UserID B は同じ電話番号を使用しているため、実際には同じ人物に属していることがわかります。

これが、OneID がアイデアとして浮上した理由です。すべての業種のユーザー登録情報を Apache Doris の大きなテーブルに収集して整理し、各ユーザーが固有の OneID を持つようにするためです。

これは、Apache Doris の機能を利用して、どの登録が同じユーザーに属しているかを判断する方法です。

タグサービス

この CDP は、500 を超えるソーステーブルから得られる 5 億件の顧客情報に対応し、合計 2,000 を超えるタグが付けられています。

タグは適時性に応じて、リアルタイムタグとオフラインタグに分類できます。リアルタイムタグは Apache Flink によって計算され、Apache Doris のフラットテーブルに書き込まれます。一方、オフラインタグは、Doris のユーザー属性テーブル、ビジネステーブル、およびユーザー行動テーブルから生成されるため、Apache Doris によって計算されます。データラベル付けにおける同社のベストプラクティスは次のとおりです:

1. オフラインタグ

データ書き込みのピーク期間中は、データの規模が大きいため、更新は非常に難しく、OOM エラーが発生しやすいです。これを回避するために、Apache Doris の INSERT INTO SELECT 機能を活用し、部分的な列の更新を有効にしました。これにより、メモリ消費が大幅に削減され、データ読み込み中のシステムの安定性が維持されます。

enable_unique_key_partial_update=true を設定します。
tb_label_result(one_id, labelxx) に挿入
one_id、label_value を labelxx として選択します
from .....

ログイン後にコピー

2. ライブタグ

ライブタグであっても更新速度が異なるため、部分的な列の更新はライブタグにも使用できます。必要なのは、partial_columns を true に設定することだけです。

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http ://127.0.0.1:48037/api/db1/user_profile/_stream_load

ログイン後にコピー

3. 高同時実行ポイントクエリ

現在のビジネス規模では、会社は次のクエリを使用しています。 5000 QPS を超える同時実行レベルでタグクエリリクエストを受信します。彼らは高いパフォーマンスを確保するために戦略を組み合わせて使用します。まず、Prepared Statement を使用して SQL をプリコンパイルし、事前実行します。次に、Doris バックエンドとテーブルのパラメーターを微調整して、ストレージと実行を最適化します。最後に、列指向の Apache Doris を補完するものとして行キャッシュが有効になります。

Doris のバックエンドパラメータを微調整する be.conf:

disable_storage_row_cache = false
storage_page_cache_limit=40%

ログイン後にコピー

テーブル作成時のテーブルパラメータの微調整:

enable_unique_key_merge_on_write = true
ストア行列 = true
light_schema_change = true

ログイン後にコピー

4. タグ計算 (結合)

実際には、多くのタグサービスはデータベース内の複数テーブル接続を通じて実装されます。通常、これには 10 を超えるテーブルが含まれます。最高のコンピューティングパフォーマンスを得るために、Doris で同じ場所に配置されたグループポリシーを採用しました。

顧客グループ化

CDP 2.0 の顧客グループ化パイプラインは次のとおりです。Apache Doris は顧客サービスから SQL を受け取り、計算を実行し、SELECT を通じて結果セットを送信します。 INTO OUTFILE S3 オブジェクトストレージに送信します。同社は顧客を 100 万のグループに分けました。 Impala では 50 秒かかっていた顧客のグループ化タスクが、Doris ではわずか 10 秒で完了します。

より詳細な分析のために顧客をグループ化することに加えて、場合によっては逆分析も実行します。つまり、特定の顧客について、その顧客がどのグループに属しているかを調べます。これは、アナリストが顧客の特徴と、さまざまな顧客グループがどのように重なるかを理解するのに役立ちます。

Apache Doris では、これは BITMAP 関数によって実現されます。BITMAP_CONTAINS は顧客が特定のグループに属しているかどうかを確認する簡単な方法であり、BITMAP_OR、BITMAP_INTERSECT、および BITMAP_XOR は相互分析の選択肢です。

結論

CDP 1.0 から CDP 2.0 まで、保険会社は統合データウェアハウス Apache Doris を使用して Spark Impala HBase NebulaGraph を置き換えています。データサイロを打破し、データ処理パイプラインを簡素化することで、データ処理効率を向上させます。 CDP 3.0 では、リアルタイムタグとオフラインタグを組み合わせて顧客をグループ化し、より多様で柔軟な分析を実現したいと考えています。 Apache Doris コミュニティと VeloDB チームは、このアップグレード中もサポートパートナーであり続けます。

以上が統合データウェアハウスを使用してデータサイロを解消: Apache Doris に基づく CDPの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7675

CakePHP チュートリアル

1393

C# チュートリアル

1207

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Bitget Wallet 取引所に登録できないのはなぜですか? Sep 06, 2024 pm 03:34 PM

BitgetWallet 取引所に登録できない理由は、アカウント制限、サポートされていない地域、ネットワークの問題、システムメンテナンス、技術的障害などさまざまです。 BitgetWallet 取引所に登録するには、公式 Web サイトにアクセスして情報を入力し、規約に同意して登録を完了し、本人確認を行ってください。

なぜDouyinは2つのアカウントを持っているのですか?携帯電話に2つのTikTokをインストールするにはどうすればよいですか? May 06, 2024 pm 09:28 PM

デジタル時代において、ソーシャルメディアは人々の生活に不可欠な部分となっています。 Douyin は、中国で最も人気のあるショートビデオプラットフォームの 1 つとして、多くのユーザーを魅了しています。アカウントを 2 つ登録しているユーザーもいます。では、Douyin はなぜ 2 つのアカウントを持っているのでしょうか?この記事では、この質問に答え、携帯電話に 2 つの Douyin アカウントをインストールする方法を説明します。 1. なぜDouyinは2つのアカウントを持っているのですか?機能の差別化: ユーザーによっては、コンテンツの種類や機能に基づいてアカウントを区別する場合があります。たとえば、あるアカウントは日常生活を共有するために使用され、別のアカウントは専門的なスキルを示すために使用されます。 2. プライバシー保護: 一部のユーザーは、2 つのアカウントを通じてプライバシーを保護し、生活と仕事を分離し、情報漏洩を回避したいと考えています。 3. インタラクションのニーズ: インタラクションのニーズにより、ユーザーによっては 2 つを登録する場合があります。

Douyinのスパークカラー変更ルールの詳しい説明は何ですか？条件に合わせた多彩なスパークカラー May 04, 2024 am 09:31 AM

ユーザーインタラクションを強化し、ユーザーエクスペリエンスを向上させるために、Douyin プラットフォームは興味深いインタラクティブメカニズムである Spark を開始しました。ユーザーは、Douyin での一連のアクションを通じてスパークをアクティブ化し、アップグレードすることができます。異なる色は、異なる成果と名誉を表します。 Douyin Spark の色変更ルールを理解すると、ユーザーがより適切に参加して対話し、Douyin によってもたらされるソーシャルな楽しみを楽しむことができます。 1.Douyinのスパークカラー変更ルールの詳しい説明は何ですか? 1. 行動は、いいね、コメント、共有などのユーザーのインタラクティブな行動を活性化し、火花を散らす可能性があります。 2. レベルの向上ユーザーのインタラクションが増えると、スパークは徐々にアップグレードされ、それに応じて色が変化します。 3. 色の変化スパークの色の変化は、通常、ユーザーのインタラクション頻度、インタラクションの質、アクティビティへの参加に対する熱意に関連しています。 4. タスクが完了しました

Deepseekの公式ウェブサイトの入り口と最新のプロモーションアクティビティ Feb 19, 2025 pm 05:15 PM

Deepseekの公式Webサイトは現在、ユーザーにショッピングエクスペリエンスを提供するための複数の割引アクティビティを開始しています。新規ユーザーはサインアップして10ドルのクーポンを取得し、視聴者全員に15％の限定時間割引を享受します。友人は報酬を獲得することもできます。また、買い物時に贈り物を償還するためにポイントを蓄積することができます。イベントの締め切りは違う。

トマトの小説でタスクを完了する方法 May 03, 2024 am 02:27 AM

トマトノベルズのタスクを完了すると、コインとポイントを獲得できます。方法には、新規ユーザー登録のタスクを完了することが含まれます。毎日チェックインしてください。割り当てられた小説の章を読みます。指定した小説の章にコメントを残してください。友達を招待して登録してください。ソーシャルプラットフォームで小説を共有します。

中国本土でXT.COM取引所アカウントを登録するにはどうすればよいですか? Aug 16, 2024 pm 06:51 PM

本土のユーザーは、次の手順で XT.COM 取引所に登録できます。 XT.COM 公式 Web サイトにアクセスします。右上隅の「登録」ボタンをクリックします。「モバイル登録」オプションを選択します。本土の携帯電話番号を入力し、確認コードを取得して入力します。パスワードを設定します。認証を完了します。登録が完了しました。

セサミオープンドア公式ウェブサイト取引プラットフォームセサミオープンドア公式ウェブサイト交換登録の入り口 Feb 28, 2025 am 10:57 AM

Gate.io Sesame Openは、Fiat Currency Trading、Currency Trading、Leveraged Trading、Perpetual Contracts、ETFレバレッジドトークン、ウェルスマネジメント、スタートアップの初期公募など、ユーザーにセキュリティ、安定性、オープン性、透明度を提供するなど、世界をリードするブロックチェーンデジタル資産取引プラットフォームです。

Douyinに複数のアカウントを登録するにはどうすればよいですか?複数のアカウントを管理するにはどうすればよいですか? Apr 30, 2024 pm 01:25 PM

Douyin プラットフォームでは、多くのユーザーがさまざまなニーズを満たすために複数のアカウントを登録したいと考えています。では、Douyin に複数のアカウントを登録するにはどうすればよいでしょうか?登録後にこれらのアカウントを管理するにはどうすればよいですか?この記事では、ユーザーが Douyin プラットフォームをよりよく理解し、使用できるように、これら 2 つの問題について検討します。 1.Douyinに複数のアカウントを登録するにはどうすればよいですか? Douyin アカウントの登録: まず、ユーザーは携帯電話番号または電子メールアドレスを使用して Douyin アカウントを登録する必要があります。登録手続きでは、名前、性別、年齢などの個人情報を入力する必要があります。複数のアカウントを登録する: 最初のアカウントを登録した後、ユーザーは携帯電話番号または電子メールを介して新しいアカウントを再度登録できます。各アカウントの登録情報は、名前、性別、年齢など独立したものとする必要があります。 3. 注意事項: 複数のアカウントを登録する場合、ユーザーは以下の点に注意する必要があります。

統合データ ウェアハウスを使用してデータ サイロを解消: Apache Doris に基づく CDP

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

統合データウェアハウスを使用してデータサイロを解消: Apache Doris に基づく CDP