Dragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法-コンピュータ知識-php.cn

ホームページ

コンピューターのチュートリアル

コンピュータ知識

Dragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 22, 2024 pm 02:16 PM

通信網ネット障害 deepflow ユンウェイ

龙蜥系统运维联盟：Kindling-OriginX 如何集成 DeepFlow 的数据增强网络故障的解释力

編集者注: 2023 年、Dragon Lizard コミュニティは、情報通信技術アカデミー、Alibaba Cloud、ZTE、復旦大学、清華大学、浙江大学、雲関秋豪、 Chengyun Digital、Yunshan ネットワーク、Inspur Information、Tongxin Software、China Unicom Software Institute を含む 12 団体が共催しました。この記事は Yun Guan Qiu Hao からの転載であり、DeepFlow の完全なネットワークデータ機能を組み合わせることにより、説明可能な障害根本原因レポートを自動的に生成する System Operation and Maintenance Alliance のメンバーである Kindling-OriginX を紹介します。

DeepFlow は、eBPF テクノロジーを活用して、複雑なクラウドインフラストラクチャとクラウドネイティブアプリケーションに高い可観測性を提供するオープンソースプロジェクトです。 eBPF テクノロジーを通じて、DeepFlow は、完全なリンクカバレッジと豊富な TCP パフォーマンスインジケーターを使用して、詳細なリンクトラッキングデータ、ネットワークおよびアプリケーションのパフォーマンスインジケーターを収集します。これらの機能は、専門ユーザーやネットワーク専門家に強力なトラブルシューティングと問題位置のサポートを提供します。

Kindling-OriginX は、障害の根本原因を導出する製品です。目的は、ユーザーが障害の根本原因を直接理解できるようにする、解釈可能な障害の根本原因レポートと、根本原因を検証するための根本原因推論プロセスを提供することです。。正確さ。ネットワーク障害を簡単に説明するのは困難です。どのネットワークセグメントに問題があるかをユーザーに伝えるだけでは十分ではありません。ネットワーク上でどのような障害が発生し、どこで発生したかをユーザーがよりよく理解できるように、より多くのインジケーターや図が必要です。

この記事では、DeepFlow の完全なネットワークデータ機能を組み合わせて、解釈可能な障害根本原因レポートを自動的に生成する Kindling-OriginX を紹介します。

soma-chaos はネットワーク障害をシミュレートします

200ms 遅延ネットワークシミュレーション障害を座席サービスに挿入します。
次に、まず DeepFlow を使用して 200 ミリ秒のネットワーク障害を特定し、対応するアクションを実行します。

手動による簡略化されたトラブルシューティングプロセス

#ステップ 1: トレースシステムを使用して範囲を絞り込む

マイクロサービス環境では、インターフェイスでパフォーマンスの問題が発生した場合、最初のステップは追跡システムを使用して、どのリンクが速度低下の原因となっているかを確認し、特定のパフォーマンスを理解することです。

トレースシステムを使用すると、ユーザーは特定のトレースを正確に見つけることができます。トレースを分析した結果、seat-service の実行時間が長く、同時に長時間の config-service 呼び出しが発生していることが判明しました。この場合、リンクされたネットワークインジケーターは、ネットワークの問題の原因を特定するのに役立ちます。

ステップ 2: DeepFlow フレームグラフを使用して、障害が発生したネットワークセグメントを特定します

フレームグラフの DeepFlow に障害代表のトレース ID を入力し、ネットワークレベルでのトレースのパフォーマンスを確認し、フレームグラフを詳細に分析します。フレームグラフをよく理解し、ネットワークの知識に関する専門的な経験がある場合フレームグラフは次のことを手動で分析できます。この障害は呼び出し側 (シートサービス) で発生するはずであり、問題はシステムコールがネットワークカードに送信された期間中に発生しました。つまり、コンテナネットワーク期間の問題 (これはフォールトインジェクションと一致します)。

(写真/DeepFlowネットワークフレームグラフ)

ステップ 3: コンテナネットワークで異常なネットワークインジケーターを特定する

トラブルシューティングの経験に基づいて、ユーザーは Seat-Service と Config-Service のポッドのネットワークインジケーターを確認する必要があります。現時点では、ユーザーは DeepFlow のポッドレベルのネットワークインジケーターページにジャンプする必要があります。このページを通じて、ユーザーは接続確立における 200 ミリ秒の遅延の突然変異と RTT インジケーターの突然変異を確認できます。

(図/DeepFlow ポッドレベル監視インジケーター)

ステップ 4: 考えられる干渉要因を排除する

経験によれば、ホストの CPU と帯域幅がいっぱいの場合、仮想ネットワークでもパケット損失と遅延が発生するため、seat-service と config-service が配置されているノードの CPU とノードレベルを確認する必要があります。ノードレベルのリソースが飽和しないようにするために、その時点で帯域幅が特定されます。

k8s コマンドを使用して 2 つのポッドが配置されているノードを確認し、DeepFlow のノードインジケーター監視ページに移動して対応するインジケーターを確認すると、ノードの bps、pps およびその他のインジケーターが範囲内にあることがわかります。妥当な範囲。

(画像/k8s コマンドを使用してポッドが配置されているノードを検索)

(図/DeepFlowノードレベルの監視指標(クライアント))

(図/DeepFlowノードレベルの監視指標(サーバー))

ノードレベルのネットワークインジケーターに明らかな異常がなかったため、最終的にはシートサービスのポッドレベルの rtt インジケーターが異常であると判断されました。

手動トラブルシューティングの概要

一連のトラブルシューティングプロセスの後、エンドユーザーは障害のトラブルシューティングを行うことができますが、ユーザーには次の要件が課せられます。

非常に豊富なネットワーク知識
ネットワークフレームグラフの深い理解
関連ツールの使用に習熟している

Kindling-OriginX DeepFlow メトリクスを組み合わせて説明可能な障害レポートを生成する方法

Kindling-OriginX さまざまなユーザーのニーズと使用シナリオに基づいて、Kindling-OriginX は DeepFlow データを処理して表示します。

手動による最も簡素化されたトラブルシューティングプロセスと同様に、Kindling-OriginX を使用したトラブルシューティングプロセスは次のとおりです。

各トレースの自動分析

現時点での障害を考慮して、各トレースが自動的に分析され、リストされたトレースが障害ノードに従ってグループ化されます。 Travel-service はカスケード障害によって発生します。この記事ではカスケード障害には焦点を当てていません。興味がある場合は、マイクロサービスのカスケード障害に対処する方法を参照してください。

Review 故障節點為 seat-service 的故障根報告

故障根因結論：

對於子請求10.244.1.254:50332->10.244.5.79:15679 rtt 指標出現 200ms 左右的延遲。

故障的推理驗證

由於Kindling-OriginX 已經辨識出是seat-service 呼叫config-service 的網路有問題，所以不用完全把DeepFlow 的火焰圖所有資料呈現給用戶，只需要與DeepFlow 對接，只要拿到seat-service 調用config-service 那段網路呼叫的相關資料即可。

利用 DeepFlow 的seat-service 呼叫 config-service 資料自動分析出了客戶端 pod 的容器網路出現了 201ms 的延遲。

Kindling-OriginX 會模擬專家分析經驗，進一步關聯 DeepFlow 的重傳指標與RTT指標，從而確定到底是什麼原因導致了 seat-service 呼叫 config-service 出現了延遲的現象。

Kindling-OriginX 也會整合node的CPU利用率以及頻寬指標，排除乾擾因素。

Kindling-OriginX 將整個故障推理都在一頁報告中完成，並且每個資料來源都是可信可查的。

總結

Kindling-OriginX 與 DeepFlow 都使用了 eBPF 技術，立求在不同的場景中為不同需求的用戶提供靈活高效解決方案，也期待未來能看到國內有更多能力互補產品的出現。

DeepFlow 能提供非常完整的全鏈路網路基礎數據，能夠讓雲端原生應用具有深度可觀測性，對於排查網路問題非常有用。

Kindling-OriginX 是利用 eBPF 來擷取排障北極星指標、AI 演算法和專家經驗來建構故障推理引擎，給予使用者可解釋的根因報告。

—— 完 ——

以上がDragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7522

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Bitget Wallet 取引所に登録できないのはなぜですか? Sep 06, 2024 pm 03:34 PM

BitgetWallet 取引所に登録できない理由は、アカウント制限、サポートされていない地域、ネットワークの問題、システムメンテナンス、技術的障害などさまざまです。 BitgetWallet 取引所に登録するには、公式 Web サイトにアクセスして情報を入力し、規約に同意して登録を完了し、本人確認を行ってください。

Eureka Exchangeでネットワークエラーが発生した場合の対処方法 Jul 17, 2024 pm 04:25 PM

EEX Exchange ネットワークエラーが発生した場合は、次の手順を実行して解決できます。インターネット接続を確認します。ブラウザのキャッシュをクリアします。別のブラウザを試してください。ブラウザのプラグインを無効にします。 Ouyi カスタマーサービスにお問い合わせください。

MEXC（抹茶）公式サイトにログインできないのはなぜですか？ Dec 07, 2024 am 10:50 AM

MEXC (Matcha) Web サイトにログインできない理由としては、ネットワークの問題、Web サイトのメンテナンス、ブラウザの問題、アカウントの問題などが考えられます。解決手順には、ネットワーク接続の確認、Web サイトのお知らせの確認、ブラウザの更新、ログイン認証情報の確認、カスタマーサービスへの連絡などが含まれます。

okx でログインすると認証コードを受信できない Jul 23, 2024 pm 10:43 PM

OKX へのログイン時に確認コードを受信できない理由には、ネットワークの問題、携帯電話の設定の問題、SMS サービスの中断、サーバーの混雑、確認コードの要求の制限などが含まれます。解決策は、待ってから再試行し、ネットワークを切り替えて、カスタマーサービスに連絡することです。

Ouyiokex にログインするときに確認コードを受信できない Jul 25, 2024 pm 02:43 PM

OKEx ログイン確認コードを受信できない理由と解決策: 1. ネットワークの問題: ネットワーク接続を確認するか、ネットワークを切り替えます。 2. 携帯電話の設定: SMS 受信を有効にするか、OKEx をホワイトリストに登録します。 3. 確認コードの送信制限: 後で再試行するか、 4. サーバーの混雑: 後で再試行するか、ピーク時に他のログイン方法を使用してください。 5. アカウントの凍結: 解決するには、カスタマーサービスに問い合わせてください。その他の方法: 1. 音声認証コード、2. サードパーティの認証コードプラットフォーム、3. カスタマーサービスにお問い合わせください。

Gate.ioの公式Webサイトにログインできないのはなぜですか? Aug 19, 2024 pm 04:58 PM

Gate.io が公式 Web サイトにログインできない理由には、ネットワークの問題、Web サイトのメンテナンス、ブラウザの問題、セキュリティ設定などが含まれます。解決策は、ネットワーク接続を確認し、メンテナンスが終了するのを待ち、ブラウザのキャッシュをクリアし、プラグインを無効にし、セキュリティ設定を確認し、カスタマーサービスに連絡することです。

Huobi 公式 Web サイトにログインできないのはなぜですか? Aug 12, 2024 pm 04:09 PM

Huobi 公式 Web サイトにログインできない理由には、ネットワーク接続の確認やブラウザのキャッシュのクリアなどがあります。ウェブサイトはメンテナンスまたは更新中の場合があります。セキュリティ上の問題 (IP アドレスのブロックやアカウントの凍結など) のため。入力された Web サイトのアドレスが間違っています。お住まいの地域では制限されている場合があります。その他の技術的な問題。