Table des matières
PPT≠ Reality" >PPT≠ Reality
Foret de faute = passer par les mouvements ? " >Foret de faute = passer par les mouvements ?
Vivre longue vie, il suffit d'en parler ? " >Vivre longue vie, il suffit d'en parler ?
Il est difficile de préparer un repas sans riz" >Il est difficile de préparer un repas sans riz
Enfin" >Enfin
Maison Opération et maintenance Sécurité Bon fonctionnement et entretien, un pot en fer

Bon fonctionnement et entretien, un pot en fer

Jun 08, 2023 pm 09:24 PM
运维 物力 人力

Bon fonctionnement et entretien, un pot en fer

Le 5 juin, Vipshop a publié un rapport de panne le 29 mars 2023. En raison d'un défaut dans le système de réfrigération Nansha IDC, le centre commercial en ligne de Vipshop a cessé de fonctionner, causant des centaines de millions de pertes (en tant que petite personne d'exploitation et de maintenance , je tremble).

Pour Vipshop, le centre commercial en ligne est son cœur de métier. L'échec est inévitable, mais il ne peut être toléré quand l'échec dure si longtemps. Pourquoi cela se produit-il ? Aux yeux des petits opérateurs comme nous, ce genre d'accident ne devrait pas se produire dans une entreprise de cette ampleur. Nous recherchons tous des moyens de fonctionner et de maintenir en imitant et en apprenant de leurs PPT.

Cependant, PPT est si avancé qu’il ne peut pas empêcher les dysfonctionnements de se produire. Pourquoi ?

Personnellement, je me risque à faire quelques suppositions :

  1. PPT≠ Réalité
  2. Exercice de faute = passer par les mouvements ?
  3. Vivre longue vie, juste parler ?
  4. Il est difficile de préparer un repas sans riz

PPT≠ Reality

De nos jours, diverses conférences technologiques nationales invitent les directeurs techniques et les dirigeants techniques de certaines entreprises bien connues à prononcer des discours. À en juger par les discours, chaque entreprise est très. fort (du moins c'est comme ça que cela est montré sur le PPT). Chaque fois que je l'écoute, je m'éclaire soudainement et j'en profite grandement. J'admire ces entreprises du fond du cœur, j'admire leur super pensée, leur super capacité et leur capacité. équipe super cool.

Cependant, PPT n'est qu'un outil auxiliaire après tout, il ne peut pas remplacer le statu quo.

Les beaux PPT sont réservés à ceux qui veulent les voir. Les choses peu belles doivent être endurées seules.

J'ai déjà vu le partage de Vipshop sur GOPS, et la présentation PPT est vraiment géniale. Si vous l'utilisez pour faire rapport au patron, le patron sentira également que la technologie de notre entreprise est vraiment puissante, que nous nous en sortons très bien et que nous le faisons. J'ai tout donné au patron. Toutes les bonnes illusions.

Si quelque chose ne va pas, qui ferez-vous si vous ne le faites pas ?

Tout ce qui sort de ta bouche reviendra également dans ta bouche.

Foret de faute = passer par les mouvements ?

Dans le livre "SRE : Décryptage des opérations et maintenance de Google", les exercices de pannes occupent une grande place. Grâce à des exercices de pannes, la fiabilité et la tolérance aux pannes du système peuvent être améliorées, l'équipe peut mieux comprendre l'architecture et les principes de fonctionnement du système, l'influence mutuelle de chaque module peut être mieux comprise et les failles et failles dans l'architecture du système peuvent La faute sera découverte plus rapidement.

On peut dire que les exercices de détection des défauts sont le maillon central de toute la garantie de stabilité, car ils peuvent aider l'équipe à minimiser les défauts réels et à répondre plus efficacement aux problèmes éventuels.

Mais est-ce vrai dans la réalité ?

Lors de la réalisation d'un exercice de détection de pannes, le point de défaillance doit être prédéterminé, des contre-mesures spécifiques doivent être organisées et mises en œuvre, un plan complet doit être désigné et les responsabilités et tâches professionnelles de chaque personne doivent être décrites avec précision.

Ces travaux préparatoires nécessitent à eux seuls beaucoup de main-d'œuvre et de ressources matérielles. De nombreuses équipes et de nombreuses personnes rationaliseront les étapes et les mesures. Ils examineront les exercices de détection des défauts avec la mentalité que s'ils sont effectués, ils examineront le défaut lui-même avec un regard attentif. mentalité chanceuse et mettre de l'espoir dans l'avenir.

Par exemple, si vous placez vos espoirs dans le cloud public, s'il n'y a pas de problème avec le cloud public, tout le système sera stable, mais le cloud public≠ est totalement fiable Google Cloud, Alibaba Cloud, Tencent Cloud, etc. ont tous eu des accidents majeurs, mais ce sont les usagers eux-mêmes qui paient la facture .

Ainsi, pour l'équipe d'exploitation et de maintenance ou l'équipe SRE, les exercices de détection de pannes doivent être pris au sérieux. Ils doivent non seulement effectuer des travaux préparatoires pour l'exercice, mais également prêter une attention particulière au plan pendant l'exercice, prendre des mesures en temps opportun et effectuer des travaux. corrections si des problèmes sont découverts.

Ne laissez pas l’exercice devenir une formalité, ne laissez pas l’exercice devenir un KPI, sinon vous serez la prochaine cible d’optimisation.

Vivre longue vie, il suffit d'en parler ?

Le problème avec Vipshop le 29 mars peut être reflété de côté : vivez longtemps, peut-être que ce n'est que des paroles.

Avec le développement des métiers, l'architecture système va continuer à évoluer car nos exigences en matière de haute disponibilité sont de plus en plus élevées.

Par exemple, passer d'une architecture mono-machine dans la même salle informatique à une architecture active-veille, puis passer à une architecture multi-machines dans la même ville, et enfin atteindre le niveau d'architecture à trois centres en deux lieux.

Si Vipshop construisait plusieurs salles informatiques dans la même ville, même les systèmes principaux et de secours les plus simples de la même ville ne seraient pas en panne avant 12 heures.

Bon fonctionnement et entretien, un pot en fer

Sans oublier si vous vivez en double dans la même ville.

Bon fonctionnement et entretien, un pot en fer

Cependant, je ne fais que deviner du point de vue de Dieu. Peut-être qu’ils travaillent aussi beaucoup, mais ils font simplement semblant de travailler beaucoup.

Il est difficile de préparer un repas sans riz

Comme mentionné ci-dessus, en fin de compte, cela dépendra des ressources financières, humaines et matérielles. Prenons l'exemple de Duohuo, le coût de la mise en place d'un plan de reprise après sinistre à l'échelle de la ville. n'est pas aussi simple que dubbo. Chaque fois que SRE Lorsque le responsable se présente au supérieur pour demander des fonds, si les dirigeants d'en haut ne le soutiennent pas (l'argent n'a pas encore été gagné, il faut donc dépenser beaucoup d'argent), tout sera en vain.

Les dirigeants doivent contrôler les coûts et les subordonnés ont besoin d'argent pour faire les choses. Des coûts insuffisants conduisent à l'incapacité de joindre les deux bouts, ce qui conduira à une situation où le PPT est beau, mais la réalité est terrible.

Même si vous avez de l'ambition, cela ne sert à rien.

Si quelque chose ne va pas, je te sacrifierai au ciel.

Enfin

Ce qui précède est purement fictif, s'il y a une similitude, merci de l'aimer~

Dans de nombreuses entreprises, la voix de l'exploitation et de la maintenance est très faible, au point d'être ridiculement faible, ce qui entraîne exploitation et maintenance faire des choses ou promouvoir des choses. Il est difficile de faire un seul pas.

Cependant, lorsqu'un problème survient, l'exploitation et la maintenance sont les premières à être éliminées, de sorte que le « bouc émissaire » a toujours été imputé à l'exploitation et à la maintenance.

Alors, que devons-nous faire en tant qu'agent d'exploitation et de maintenance ?

  1. Sortez - ne vous limitez pas à l'équipe d'exploitation et de maintenance, sortez et faites connaître aux services commerciaux la valeur de l'exploitation et de la maintenance.
  2. Entrez à l'intérieur : le système de connaissances sur l'exploitation et la maintenance est complexe et en constante évolution. Vous devez pénétrer dans les connaissances, comprendre en profondeur les principes qui les sous-tendent et utiliser votre expertise au service de l'équipe.
  3. Monter - pour améliorer l'influence de l'exploitation et de la maintenance, gagner plus de confiance et de soutien grâce à des capacités professionnelles et une attitude positive, changer le statu quo et améliorer le statut.

Enfin, parlons-en, ne vous moquez pas de la production.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ayant travaillé dans l'exploitation et la maintenance pendant plus de dix ans, j'ai eu d'innombrables moments où j'avais l'impression d'être encore un novice... Ayant travaillé dans l'exploitation et la maintenance pendant plus de dix ans, j'ai eu d'innombrables moments où j'avais l'impression d'être encore un novice... Jun 09, 2023 pm 09:53 PM

Il était une fois, alors que j'étais fraîchement diplômé en informatique, que je parcourais de nombreuses offres d'emploi sur les sites de recrutement, j'étais déconcerté par les postes techniques fulgurants : ingénieur R&D, ingénieur d'exploitation et de maintenance, ingénieur de tests...‍ Au collège. , mes parcours professionnels étaient médiocres, sans parler d'une vision technique, et je n'avais aucune idée claire sur la direction technique à suivre. Jusqu'à ce qu'un étudiant senior me dise : « Faites de l'exploitation et de la maintenance. Vous n'avez pas besoin d'écrire du code tous les jours pour faire de l'exploitation et de la maintenance. Il vous suffit de pouvoir jouer à Liunx ! C'est beaucoup plus facile que de faire du développement ! à croire... Je suis dans l'industrie depuis plus de dix ans, j'ai beaucoup souffert, j'ai enduré beaucoup de reproches, j'ai tué des serveurs et j'ai connu des licenciements dans des services. Si quelqu'un me dit maintenant que l'exploitation et la maintenance sont plus faciles que le développement. , alors je le ferai

Spring Boot Actuator Endpoint révélé : surveillez facilement votre application Spring Boot Actuator Endpoint révélé : surveillez facilement votre application Jun 09, 2023 pm 10:56 PM

1. Introduction au point de terminaison SpringBootActuator 1.1 Qu'est-ce que le point de terminaison Actuator SpringBootActuator est un sous-projet utilisé pour surveiller et gérer les applications SpringBoot. Il fournit une série de points de terminaison intégrés (Endpoints) qui peuvent être utilisés pour afficher l'état, l'état de fonctionnement et les indicateurs de fonctionnement de l'application. Les points de terminaison des actionneurs peuvent être exposés à des systèmes externes sous HTTP, JMX ou sous d'autres formes pour permettre au personnel d'exploitation et de maintenance de surveiller, diagnostiquer et gérer les applications. 1.2 Le rôle et la fonction du point de terminaison Le point de terminaison Actuator est principalement utilisé pour mettre en œuvre les fonctions suivantes : assurer le contrôle de santé de l'application, y compris la connexion à la base de données, la mise en cache,

Déploiement et fonctionnement de l'architecture de microservice Spring Cloud Déploiement et fonctionnement de l'architecture de microservice Spring Cloud Jun 23, 2023 am 08:19 AM

Avec le développement rapide d’Internet, la complexité des applications d’entreprise augmente de jour en jour. En réponse à cette situation, l’architecture des microservices a vu le jour. Grâce à sa modularité, son déploiement indépendant et sa grande évolutivité, il est aujourd'hui devenu le premier choix pour le développement d'applications au niveau de l'entreprise. En tant qu'excellente architecture de microservices, Spring Cloud a montré de grands avantages dans les applications pratiques. Cet article présentera le déploiement, l'exploitation et la maintenance de l'architecture de microservices SpringCloud. 1. Déployer l'architecture de microservices SpringCloud SpringCloud

Quelles capacités doivent être couvertes par les outils d'exploitation et de maintenance de la base de données PG ? Quelles capacités doivent être couvertes par les outils d'exploitation et de maintenance de la base de données PG ? Jun 08, 2023 pm 06:56 PM

Avant les vacances, j'ai collaboré avec la communauté PG Chine pour organiser une diffusion en direct en ligne sur la façon d'utiliser D-SMART pour exploiter et maintenir la base de données PG. Il est arrivé qu'un de mes clients du secteur financier ait écouté ma présentation et m'ait appelé. pour discuter. Ils sélectionnent la base de données Xinchuang et ont essayé plusieurs bases de données nationales. Enfin, ils vont choisir TDSQL. J'ai été un peu surpris à l'époque. Ils sélectionnaient des bases de données nationales depuis 2020, mais il semblait que la première expérience après l'utilisation de TDSQL n'était pas très bonne. Plus tard, après la communication, j'ai appris qu'ils venaient de commencer à utiliser la base de données distribuée de TDSQL et ont trouvé que les exigences de recherche et développement étaient trop élevées, ils ont donc tous choisi l'instance MYSQL centralisée de TDSQL. Après l'avoir utilisée, ils ont trouvé qu'elle était très facile à utiliser. . L'ensemble du cloud de base de données

Qu'est-ce que l'observabilité ? Tout ce qu'un débutant doit savoir Qu'est-ce que l'observabilité ? Tout ce qu'un débutant doit savoir Jun 08, 2023 pm 02:42 PM

Le terme observabilité provient du domaine de l’ingénierie et est devenu de plus en plus populaire dans le domaine du développement de logiciels ces dernières années. En termes simples, l'observabilité est la capacité de comprendre l'état interne d'un système sur la base de sorties externes. IBM définit l'observabilité comme suit : Généralement, l'observabilité fait référence au degré auquel l'état ou la condition interne d'un système complexe peut être compris sur la base de la connaissance de sa sortie externe. Plus le système est observable, plus le processus de localisation de la cause première d'un problème de performances peut être rapide et précis, sans nécessiter de tests ou de codage supplémentaires. Dans le cloud computing, l'observabilité fait également référence aux outils et pratiques logiciels qui regroupent, corrèlent et analysent les données des systèmes d'applications distribués et de l'infrastructure qui prend en charge leur fonctionnement afin de surveiller, dépanner et déboguer plus efficacement les systèmes d'applications, offrant ainsi une expérience client. optimisation et accord de niveau de service

Tuyou Zou Yi : Comment faire fonctionner et entretenir les petites et moyennes entreprises ? Tuyou Zou Yi : Comment faire fonctionner et entretenir les petites et moyennes entreprises ? Jun 09, 2023 pm 01:56 PM

Par le biais d'entretiens et de présentations, les vétérans du domaine de l'exploitation et de la maintenance sont invités à fournir des informations approfondies et à se confronter, en vue de former un consensus avancé et de promouvoir l'industrie pour qu'elle progresse mieux. Dans ce numéro, nous invitons Zou Yi, le directeur de l'exploitation et de la maintenance de Tuyou Games, M. Zou se qualifie souvent en plaisantant de représentant de l'exploitation et de la maintenance des 5 millions de plus grandes entreprises mondiales. les idées de construction d'exploitation et de maintenance des petites et moyennes entreprises sont différentes de celles des grandes entreprises. Aujourd'hui, nous avons quelques questions et demandons à M. Zou de partager son parcours d'intégration de la recherche et des opérations pour les petites et moyennes entreprises. entreprises de taille. C'est le 6ème numéro du "Forum Exploitation et Maintenance", terre-à-terre et de haut niveau, qui commence dès maintenant ! Aperçu de la question Tuyou est une société de jeux. Selon vous, quelles sont les caractéristiques uniques de l'exploitation et de la maintenance des jeux ? Quels sont les plus grands défis opérationnels auxquels vous êtes confrontés ? Comment avez-vous résolu ces défis ? Personnes chargées de l'exploitation et de la maintenance des jeux

Avez-vous besoin d'apprendre le golang pour l'exploitation et la maintenance ? Avez-vous besoin d'apprendre le golang pour l'exploitation et la maintenance ? Jul 17, 2023 pm 01:27 PM

N'apprenez pas Golang pour l'exploitation et la maintenance.Les raisons sont les suivantes : 1. Golang est principalement utilisé pour développer des applications avec des exigences de performances élevées et simultanées ;2. Les outils et langages de script couramment utilisés par les ingénieurs d'exploitation et de maintenance peuvent déjà répondre. la plupart des exigences en matière de gestion et de maintenance ; 3. L'apprentissage du golang nécessite une certaine base de programmation et une certaine expérience ; 4. L'objectif principal de l'ingénieur d'exploitation et de maintenance est d'assurer la stabilité et la haute disponibilité du système, et non de développer des applications ;

Du Xiaoman et Chen Cunli : un « commandant » de 20 ans parle d'exploitation et de maintenance, de performances et de croissance Du Xiaoman et Chen Cunli : un « commandant » de 20 ans parle d'exploitation et de maintenance, de performances et de croissance Jun 09, 2023 am 09:56 AM

Par le biais d'entretiens et de présentations, les vétérans du domaine de l'exploitation et de la maintenance sont invités à fournir des informations approfondies et à se confronter en vue de former un consensus avancé et de promouvoir l'industrie pour qu'elle progresse mieux. Dans ce numéro, nous invitons Chen Cunli, directeur général du département d'exploitation et de maintenance du système Du Xiaoman. Il a passé la majeure partie de ses 20 ans de carrière dans le domaine d'Internet. Pendant son séjour au département des opérations et de la maintenance de Baidu, les membres de son équipe l'appelaient « Commandant Chen » en raison de son excellent style de leadership. Aujourd'hui, nous invitons le « Commandant Chen » à parler de son point de vue. Il s'agit du cinquième numéro du « Forum Exploitation et Maintenance », terre-à-terre et de haut niveau, qui commence dès maintenant ! Aperçu de la question : Vous avez rejoint Baidu très tôt, puis êtes devenu indépendant avec Du Xiaoman. Nous comprenons qu'il y a de nombreux employés autour de vous qui vous suivent depuis longtemps et ont vécu de nombreux tests d'exploitation et de maintenance d'entreprise. Je pense que tout le monde est très. intéressé.

See all articles