クラウド コンピューティングは、強化、効率、弾力性、ビジネスの機敏性をもたらしますが、クラウドの運用と保守に対して前例のない課題ももたらします。新しいテクノロジー トレンドの課題にどのように対処し、クラウド時代のインテリジェントな監視プラットフォームを構築し、クラウド アプリケーションに対するより優れた保護を提供するかは、今日すべての企業が直面している難しい問題です。
最近の [T·Talk] シリーズ イベントの第 8 回では、51CTO コンテンツ センターが Chengyun Products 副社長の Zhang Huaipeng を特別にライブ ブロードキャスト ルームに招待し、全員と共有しました。クラウド時代のデジタル観測ツールの創造、経験と思考。 [T・Talk] にもこの号の興味深い内容がまとめられていますので、そこから何かを得ることができれば幸いです。デジタル トランスフォーメーション デジタル オペレーションの課題
デジタル トランスフォーメーションとデジタル経済構築は現代の大きなトレンドであり、デジタル トランスフォーメーションは人類史上第 4 の産業革命と言えます。私たちの日常の仕事方法、支払い方法、旅行方法を含む買い物方法はすべて、常にデジタル化の影響を受けています。一言で言えば、従来のITの時代からデジタルDTの時代に入りました。
## 調査によると、CEO の 60% が現在、デジタル トランスフォーメーションが重要であると信じています。企業も、このグループのリーダーシップの下、デジタル変革と人工知能の進化に向けて大きく前進しています。しかし、それとは対照的に、企業アプリケーションの 95% は効果的な監視や注目を受けていません。
現在のデジタル運用方法のほとんどは従来のデータセンター時代に生み出されており、多くのツールやテクノロジーはクラウド コンピューティングのシナリオを考慮していません。クラウド コンピューティングの普及により、情報化シナリオは地球を揺るがす変化を遂げました。アプリケーション自体の複雑さは爆発的に増加し、ディストリビューションの数が増え、依存関係がますます複雑になり、ソフトウェアの反復のペースがますます速くなりました。このようなシナリオでは、企業は DT 時代のビジネスとデータ フローに基づいた一連のソリューションを緊急に構築する必要があります。
DT 時代は、現在非常に人気のあるクラウド ネイティブなど、あまりにも多くの新しいテクノロジーと新しいシナリオを生み出しました。クラウド ネイティブの要件により、従来の運用と保守からの進化が加速しています。アプリケーションの運用保守です。従来のシナリオでは大量のインフラストラクチャがありますが、企業がクラウドに移行すると、インフラストラクチャはオペレータまたはオペレータによってホストされるようになり、企業は従来のコンピュータ ルーム管理、微弱な電流管理、ハードウェア モニタリング、ベア メタル モニタリングを提供する必要がなくなりました。 、UPSの設定、電気、温度、湿度に関するトラブル。したがって、従来の機器の運用と保守は、サイト信頼性アプリケーションに重点を置いた運用と保守に進化しており、企業は従来の運用と保守への投資をますます減らしていくことになります。
現在、私たちはインテリジェントな運用保守の段階に移行しています。いまやるべきことは、デジタル運用保守やIT運用保守を軽量化、高速化、低コスト化することです。運用保守チームのエネルギーはエンタープライズ ビジネス自体に集中する必要があり、ビジネスは運用保守担当者が注意を払う必要がある重要な問題です。これらにより、インテリジェントな運用保守が求められます。
1. インテリジェントな運用と保守とは何か
インテリジェントな運用に関して、Forrester と Gartner はレポートで次のように定義しています: AIOps は、AI とデータ サイエンスをビジネスと運用に適用して相関関係を確立し、リアルタイムで規範的および予測的な回答を提供できる一連のデータ フィールドです。システム。 AIOps はソフトウェア システムであるため、実装された製品である可能性があります。 AIOps は、可用性とパフォーマンスの監視、イベントの関連付けと分析、IT サービスの管理と自動化など、従来の主要な IT 運用および保守機能を強化し、部分的に置き換えることができます。
AIOps は運用を重視しており、運用では観察、管理、廃棄の 3 つの側面をカバーする必要があります。ただし、現在の業界全体のレベルは観察レベルに重点が置かれています。 Forrester もこれに関して古典的な声明を発表しました。AIOps はより強力な可観測性と安定性を約束します。
Forrester は、現在の AIOps の中核的価値の 1 つは、イベント前の機能を強化し、観察可能な機能を改善および拡張することであると考えています。
可観測性は最初に制御理論で生まれ、システムが外部出力からその内部状態をどの程度推測できるかを指します。 IT の分野では、ガートナーは可観測性をソフトウェアとシステムの特性として定義しています。具体的には、システムが生成するテレメトリデータに基づいて、システムの現在の状態やシステムの状態を判断する能力を指し、この能力が可観測性または可観測性です。
従来の監視テクノロジとツールでは、分散化が進む現在のアーキテクチャでは、通信パスと依存関係を追跡することが困難です。クラウド ネイティブ シナリオやクラウド シナリオでは、依存関係は非常に複雑であり、従来の多くのものとは異なります。モノリシック アーキテクチャ アプリケーション。可観測性により、複雑なシステムをより適切に制御できる 可観測性の 3 つのデータ柱を通じて、複雑なシステムのあらゆる側面を非常に直観的かつ詳細な方法で理解できます。
オブザーバビリティは、運用と保守だけでなく、開発部門、SRE 部門、サポート部門、マーケティング部門、ビジネス部門にも役立ちます。したがって、AIOps と可観測性を統合して統合プラットフォームを作成できれば、一石二鳥の非常に完璧な製品が得られます。
3. 企業がインテリジェントな運用と保守につながる 2 つの典型的な技術パス AIOps企業が IT インテリジェントな運用と保守につながる 2 つの典型的な技術パスは、次のとおりです。可視化することは、「プラグイン AIOps」と「内在性 AIOps」に要約できます。プラグイン AIOps は、バイパスを通じて AIOps プラットフォームを企業の IT 運用および保守環境に組み込みます。 AIOps は、企業の異種データにアクセスし、データ エンジニアを使用してデータ間の依存関係を整理し、ビッグ データ処理テクノロジーを使用してプロジェクト ベースの配信を実現する独立したアルゴリズム プラットフォームです。
内因性 AIOps は、統合された技術ルートを重視します。 - データ エンジニアの参加を必要としない、データ処理プロセス全体のループ。速達と同様に、送り主の商品はデータに相当します。データ取得後、配送業者は梱包、倉庫保管、発送、輸送などの業務を行います。ただし、最終的には受信者がアイテムを受け取り、その間のすべての処理ステップを送信者と受信者が処理する必要はありません。 Endogenous AIOps はこの機能を強調し、統合された観測プラットフォームに AI 機能を組み込みます。
技術的な実装の違い:プラグイン AIOps は通常、従来の機械学習 AI を使用します。このテクノロジーは本質的に、メトリック、ログ、イベントなどを組み合わせた統計手法です。情報は関連付けられて分析され、アラームのノイズが軽減されます。機械学習 AI を通じて、相関する一連のアラートを取得できます。一般に、プラグイン AIOps では、推奨事項や考えられる根本原因を見つけるために手動作業や履歴記録が必要です。
同時に、プラグイン AIOps は外部データに大きく依存する必要があり、プラグイン AIOps のメーカーは通常、アルゴリズム プラットフォームのみを作成します。データ クリーニング、CMDB エンティティ間の依存関係などにはすべて外部データが必要です。したがって、プラグイン AIOps を実装する場合は、非常に成熟した情報運用および保守システムが必要であり、プラグインを実装する前に、データの呼び出し、APM 製品、および比較的完全な可観測性の前提条件を備えている必要があります。 AIOpsで。
Endogenous AIOps は、決定論的な分析結果を目標として、決定論的な人工知能分析を提供します。つまり、問題が発生した後、問題の根本原因は決定論的であり、ほぼリアルタイムの結果になります。 Endogenous AIOps は、非常に高いリアルタイム パフォーマンスでマトリックス依存関係マップを維持します。このテクノロジーは、従来の静的 CMDB に依存する必要はありません。代わりに、依存関係マップ自体がリアルタイム CMDB と同等であり、依存関係を統合できます。変化をリアルタイムに把握し、内生関係を活用した経営分析を実現します。
AIOps の実装レベルでも、企業は多くの問題を考慮する必要があります。経営者の視点では、コストやチームといった基本的な問題に加えて、部門間のバランスや、コストと安定性、効率性のバランスも考慮する必要があります。 AIOps の目標は、問題を解決するだけでなく、合理的に解決することです。コストを確保しながら、ビジネスの安定性と効率性を最大限に高めることができます。
##Forrester A にてによるレポートでは、企業が AIOps を実装する場合、次の重要な機能を考慮する必要があると述べています:
従来の AIOps プラットフォーム、つまりプラグイン AIOps プラットフォームは、不安定なビッグ データ システムを作成するために、データ処理プロセス中に多くのツールを組み合わせて組み立てます。 。人事異動が発生した場合、新たな引き継ぎには多額の技術的負債が残る可能性が非常に高くなります。
データ収集の最初のステップでは、多数のオープンソースおよび商用ツールに依存する必要があります。 2 番目のステップは、ビッグ データ プラットフォームにデータを挿入することです。 3 番目のステップは、データの関係を手動で整理し、データをクリーンアップすることです。最初の 3 つのステップは非常に時間がかかります。 4 番目のステップは、問題を発見して特定することです。このステップでのみ AIOps ベンダーが関与します。オンデマンドで構築するには、ベンダー チームが顧客サイトに常駐する必要があります。メーカーがニーズをお伺いし、対応したサービスを提供いたします。 5 番目に、ダッシュボードを構築します。第 6 に、システムの拡張です。アプリケーション システムの規模が増加するにつれて、システム全体は直線的に拡張されます。
内因性 AIOps のデータ処理プロセスは非常にシンプルで、1 つのツールでデータ収集の問題を解決できます。また、高度に商業化された製品であるため、エンジンを含むすぐに使えるダッシュボード機能を備えています。そのため、その後の処理手順はすべてブラックボックス化されており、企業はそれほど注意を払う必要がなく、ビジネスエンジニアもアルゴリズムの理解やSREの技術レベルを必要としません。
同時に、エンタープライズ ビジネス システムの規模が拡大するにつれて、内因性 AIOps は非線形に成長します。ユーザーチームや製品を含むシステム全体は、非直線的に成長しています。ソリューション全体の構築が完了すると、企業はエージェントを 1 つインストールするだけで済み、その後の機能の多くは自動化されます。これにより、企業の運用および保守担当者は企業自身のビジネスに集中できるようになります。
業界は、データ処理プロセス全体を完全にカバーできる新世代のソフトウェア インテリジェンス プラットフォームを必要としています。生データを提示するのではなく、顧客が望む結果を直接提供します。一般に、プラグイン AIOps と内因性 AIOps の 2 つの技術パスのうち、企業にはインテリジェントな運用と保守の新しいパラダイムに属する内因性 AIOps を使用することがより推奨されます。
内生 AIOps プラットフォームの目標は、 AIOps と可観測性を組み合わせたオールインワン プラットフォーム。これには観察機能が必要ですが、その観察機能はアプリケーションの監視を中心とする必要があり、アプリケーションの監視はエンド ユーザーが直面する現象層です。同時に、クラウド プラットフォームの監視やブラック ボックスの監視など、インフラストラクチャの監視を統合する必要があります。最後に、フロントエンドのデジタル エクスペリエンスを提供する能力も必要です。
新しい AIOps プラットフォームでは、データ アクセスからデータ結果の出力まで、継続的な自動化を作成する必要があります。事前の能力と予測と警告の能力が必要です。
新しい AIOps プラットフォームは、元のデータや元の部分を企業に示すだけでなく、現象や経験、その結果、大量のノイズによる企業への影響や妨害を可能な限り軽減することができます。
内因性 AIOps のデータ処理モデルには、データ収集におけるエージェントの能力の強調など、多くの違いがあります。データ処理に関しては、インジケーターシステムに重点を置き、インジケーターシステムの構築は従来の手法とは異なり、内因性AIOpsが統合プラットフォームに内生的であることを強調しています。
#内生 AIOps プラットフォームは主に次の 5 つの側面に焦点を当てます。クラウド ネイティブの運用と保守により複雑さが簡素化されます:
高品質の監視データを直接取得します。これらのデータは、ソース コード、ビジネス、アプリケーションを変更することなく、非侵入的かつ自動化された方法で収集される必要があり、コンテキスト情報と自動化を実現できます。組み合わせる。コンテキスト情報は、真の根本原因分析の実現を支援し、根本原因分析による忠実度の高い背景情報の抽出を支援し、プラットフォームがリアルタイムのサービス フロー図とトポロジ図を構築して依存関係を特定するのに役立ちます。マトリックス型リレーショナル トポロジ テクノロジを含め、このコンテキスト情報も非常に重要です。
トポロジ図は主に、垂直スタックと水平スタックを含むアプリケーション環境全体の依存関係を示します。サービス フロー図は、サービスまたはリクエストの観点からトランザクション全体を表示するものであり、サービス フロー図とトポロジ図を通じて、サービス間の呼び出しのシーケンスを示すことができます。サービス フロー図はトランザクションの分散シーケンス全体を秩序正しく示し、トポロジ図は依存関係などを示す高レベルの抽象化です。
高品質の監視関係を直接取得するには、商用エージェント テクノロジーを使用する必要があります。 、市場には多くのオープン ソース ツールや無料ツールが存在しますが、商用エージェント テクノロジには、オープン ソース ツールにはない次のような利点があります。
#上記の利点は、多くの無料ツールでは利用できません。内生の AIOps プラットフォームは One Agent テクノロジーに依存しており、Agent はエッジ コンピューティング設計を採用しており、エッジ エンドポイントで多くのデータ集約とデータ クリーニングを実行します。
#内生 AIOps プラットフォームの機能は、継続的な自動化を構築するように設計されています。複雑なクラウドネイティブ環境の監視には自動化が必要です。自動展開、自動適応、自動検出、モニタリング、注入、クリーニング、および一連の自動化が含まれます。複雑なクラウドネイティブ環境では、これらのエンドツーエンドのビジネスを手動で理解することは困難であるため、自動運用とメンテナンスを支援する補助ツールとして高度な自動化機能が必要です。
内因性 AIOps プラットフォームは、リアルタイム マトリックス トポロジを構築できます。サービス層の依存関係図をはじめ、コンテナ層、ホスト層、プロセスレベルなど、図面に沿って検索したり、図面の横方向を確認したりできます。垂直方向は、サービスが実行されるコンテナー、このコンテナーが対応するプロセス、およびこのプロセスが属するクラウド ホストです。
出力影響分析はネットワークセキュリティの考え方に相当し、運用保守においても同様です。システム障害や異常が発生した場合、その影響範囲は何か、どのユーザー、サービス、アプリケーションが影響を受けるのか、その根本原因は何か。自動化された手段と技術により、運用担当者や保守担当者による手動分析を必要とせずに、結果がユーザーに出力されます。
最後に、自動化された運用とメンテナンスの非常に重要な機能は、根本原因を突き止めて結果を目撃することです。従来のテクノロジーでは、知識ベース、CMDB、因果推論に基づくさまざまな方法が必要ですが、AIOps は内因性の根本原因の特定を提供します。データの依存関係を明らかにすることができ、オブジェクト間の依存関係に加えて、呼び出しチェーン、ログ、インジケーター間の依存関係など、異なるデータ型間の依存関係も明らかにすることができます。リアルタイムで根本原因の位置を特定し、適応性が高く、オーバーヘッドが低く、非常に高い精度を備えています。また、教師なしテクノロジーも備えており、これらの機能を実現するためにあまり多くの手動支援を必要としません。
企業がデジタル変革で成功したい場合は、すべてのアプリケーション、デジタル サービス、運用をサポートする動的なマルチクラウド プラットフォームが完全に機能し、すべての機能が確実に機能するようにする必要があります。時間がそれを実現させます。
これらの高度に動的で分散されたクラウドネイティブ テクノロジは、従来のシナリオとはまったく異なります。その結果、マイクロサービス、コンテナ、ソフトウェア定義のクラウド インフラストラクチャによってもたらされる複雑さは、現在、制御不能になりつつあります。これらの複雑さはチーム管理能力の限界を超え、増大し続けています。このような急速に変化する環境でいつでも何が起こっているかをすべて理解したい場合は、可観測性とインテリジェントな運用および保守機能を向上させる必要があります。
高度な自動化とインテリジェントなテクノロジーを使用して、クラウド ネイティブの運用とメンテナンスを軽量、高速、低コストにし、企業チームがエネルギーを集中できるようにする必要があります。エンタープライズ ビジネスそのものも、まさにインテリジェントな運用保守の時代に向かって進んでいます。
Zhang Huaipeng、Chengyun Products 副社長。 2017年に杭州成雲デジタル技術有限公司に入社し、[DataBuff統合監視およびインテリジェント運用保守]製品ラインの日常管理を担当し、IPD統合製品開発チームのマネージャーとして市場に参加しています。管理、需要分析、チームコラボレーション、プロセス構造化、品質管理など。
以上がクラウドネイティブの運用とメンテナンスを簡素化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。