Maison > interface Web > js tutoriel > Maîtriser la gestion des incidents AWS : automatiser les réponses avec Systems Manager Incident Manager

Maîtriser la gestion des incidents AWS : automatiser les réponses avec Systems Manager Incident Manager

Linda Hamilton
Libérer: 2025-01-04 02:30:38
original
595 Les gens l'ont consulté

Aperçu

Lors de la gestion des taux d'erreur accrus dans AWS Lambda, il est crucial de catégoriser les erreurs et de définir des chemins de remontée. Ce guide montre comment utiliser AWS Systems Manager Incident Manager pour gérer automatiquement et faire remonter efficacement les incidents. Le flux de travail consiste à collecter les détails des erreurs à l'aide de Runbooks et à informer les parties prenantes via Amazon SNS.

Pourquoi utiliser le gestionnaire d'incidents AWS Systems Manager ?

AWS Systems Manager Incident Manager fournit une gestion centralisée de la réponse aux incidents dans les environnements AWS. Les principaux avantages incluent :

  1. Intégration AWS native : s'intègre de manière transparente à des services tels qu'Amazon CloudWatch, AWS Lambda et Amazon EventBridge.

  2. Runbook Automation : facilite les flux de travail automatisés ou semi-automatisés pour dépanner et résoudre les incidents.

  3. Notifications multicanaux : prend en charge les notifications via Amazon SNS, Slack et Amazon Chime.

  4. Efficacité des coûts : Une alternative viable aux solutions commerciales pour les environnements de petite à moyenne taille.

Limites

Pour les organisations à grande échelle nécessitant des rapports détaillés, des hiérarchies d'équipe complexes et des flux de remontée d'informations à plusieurs niveaux, des outils spécialisés tels que PagerDuty ou ServiceNow peuvent être plus appropriés.

Présentation de l'architecture

L'architecture surveille les fonctions AWS Lambda pour détecter les erreurs à l'aide des alarmes CloudWatch. Incident Manager crée automatiquement des incidents et exécute des Runbooks pour la gestion des erreurs et les notifications.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Scénarios d'erreur

  • Erreur A : Incident standard avec notifications par e-mail.

  • Erreur B : Incident critique nécessitant des notifications par SMS et des escalades.

Les alarmes CloudWatch sont configurées pour faire la distinction entre ces types d'erreurs, déclenchant des réponses à des incidents spécifiques en conséquence.


Configuration étape par étape

Étape 1 : Créer des alarmes CloudWatch pour les erreurs Lambda

Exemple de fonction Lambda :

import logging

logger = logging.getLogger()
logger.setLevel(logging.INFO)

def lambda_handler(event, context):
    error_type = event.get("errorType")

    try:
        if error_type == "A":
            logger.error("Error A: A standard exception occurred.")
            raise Exception("Error A occurred")
        elif error_type == "B":
            logger.error("Error B: A critical runtime error occurred.")
            raise RuntimeError("Critical Error B occurred")
        else:
            logger.info("No error triggered.")
            return {"statusCode": 200, "body": "Success"}
    except Exception as e:
        logger.exception("An error occurred: %s", e)
        raise
Copier après la connexion
Copier après la connexion

Configurez les métriques et les alarmes CloudWatch :

  1. Filtres de métriques : créez des filtres pour l'erreur A et l'erreur B.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

  1. Alarmes : associez ces filtres à des alarmes avec des seuils et des périodes appropriés.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

  1. Actions d'alarme : configurez des déclencheurs pour lancer les flux de travail Incident Manager.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Étape 2 : configurer le gestionnaire d'incidents

  1. Activer le gestionnaire d'incidents :
import logging

logger = logging.getLogger()
logger.setLevel(logging.INFO)

def lambda_handler(event, context):
    error_type = event.get("errorType")

    try:
        if error_type == "A":
            logger.error("Error A: A standard exception occurred.")
            raise Exception("Error A occurred")
        elif error_type == "B":
            logger.error("Error B: A critical runtime error occurred.")
            raise RuntimeError("Critical Error B occurred")
        else:
            logger.info("No error triggered.")
            return {"statusCode": 200, "body": "Success"}
    except Exception as e:
        logger.exception("An error occurred: %s", e)
        raise
Copier après la connexion
Copier après la connexion

Étape 3 : configurer les contacts de notification

  • E-mail : avertir les administrateurs de l'erreur A.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

  • SMS : informer les parties prenantes de l'escalade de l'erreur B.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Étape 4 : Définir des plans d'escalade

  • Erreur A : Notification par email suivie d'un SMS si non résolue.

  • Erreur B : Notification SMS immédiate.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Étape 5 : Créer un Runbook

Modèle de Runbook :

- Navigate to the Incident Manager settings in the AWS Management Console and onboard your account.
Copier après la connexion

Étape 6 : Créer des plans de réponse

  • Définissez des plans de réponse distincts pour l'erreur A et l'erreur B.

  • Liez les Runbooks et les canaux de notification à chaque plan de réponse.

Étape 7 : lier les alarmes CloudWatch au gestionnaire d'incidents

  • Modifiez les actions d'alarme pour déclencher les plans de réponse du gestionnaire d'incidents correspondants.

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Démo

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Mastering AWS Incident Management: Automating Responses with Systems Manager Incident Manager

Comparaison des outils commerciaux

Feature AWS Incident Manager PagerDuty ServiceNow
Cost Efficiency High Medium Low
AWS Integration Seamless Limited Limited
Escalation Flexibility Moderate High High
Reporting and Analytics Basic Advanced Advanced

Cas d'utilisation idéaux pour AWS Incident Manager :

  • Environnements de petite à moyenne taille avec des architectures centrées sur AWS.

  • Besoins simples d'escalade et de notification.

  • Déploiements sensibles aux coûts.


Conclusion

AWS Systems Manager Incident Manager est un outil rentable pour la réponse aux incidents dans les environnements centrés sur AWS. Bien qu'il lui manque certaines fonctionnalités avancées des solutions commerciales, il offre une intégration robuste avec les services AWS et des fonctionnalités suffisantes pour de nombreux cas d'utilisation. Sa facilité d'installation et son faible coût en font un choix attrayant pour les opérations de petite et moyenne taille.


Références

  • Gestionnaire d'incidents AWS Systems Manager

  • Surveillance AWS Lambda

  • Alarmes Amazon CloudWatch

  • PagerDuty

  • ServiceMaintenant

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal