Le travail effectué par l'exploitation et la maintenance de Linux : 1. Surveillance des services ; 2. Gestion des pannes de service ; 3. Gestion de la capacité du service ; 5. Planification du trafic global du service ; assurance de sécurité ; 8. Libération et déploiement automatiques du service ; 9. Gestion du cluster de services ; 10. Gestion de la base de données, etc.
L'environnement d'exploitation de ce tutoriel : système linux5.9.8, ordinateur Dell G3.
Le contenu principal du travail d'exploitation et de maintenance de Linux
L'exploitation et la maintenance de Linux est le poste avec le plus grand nombre de personnes et le salaire le plus élevé parmi de nombreux emplois. Cet article se concentre sur la carrière d'exploitation et de maintenance de Linux. Le contenu de cet article a été appris par un professionnel spécialisé dans l'exploitation et la maintenance de Linux. Rédigé conjointement avec l'organisation de développement professionnel Marco Education et des passionnés.
Les travaux d'exploitation et de maintenance d'Internet Linux sont centrés sur les services et prennent la stabilité, la sécurité et l'efficacité comme trois points fondamentaux pour garantir que les activités Internet de l'entreprise peuvent fournir aux utilisateurs des services de haute qualité 7 × 24 heures. Les responsabilités d'exploitation et de maintenance couvrent le cycle de vie du produit, de la conception à la publication, en passant par l'exploitation et la maintenance, les modifications et mises à niveau, ainsi que hors ligne.
Les responsabilités d'exploitation et de maintenance sont importantes et étendues tout au long du cycle de vie du produit, mais les responsabilités des ingénieurs d'exploitation et de maintenance ne se limitent pas à cette partie du travail. Ils doivent également résumer les problèmes rencontrés dans le travail et extraire les instructions techniques pertinentes. et des outils et plates-formes liés à la R&D pour soutenir/optimiser le développement commercial et améliorer l'efficacité de l'exploitation et de la maintenance. Les travaux techniques connexes comprennent principalement :
Technologie de surveillance des services : y compris la recherche, le développement et l'application de plates-formes de surveillance, et garantir l'exactitude. , surveillance en temps réel et exhaustive du service
Gestion des défauts de service : y compris la conception du plan de défaut de service, l'exécution automatisée du plan, le résumé des défauts et le retour d'information au niveau de conception du produit/système pour l'optimisation afin d'améliorer la stabilité du produit
Gestion de la capacité du service : mesure de la capacité du service, planification de la construction de la salle de service, de l'expansion, de la migration et d'autres travaux
Optimisation des performances du service : améliorer les performances du service et la vitesse de réponse dans toutes les directions, y compris l'optimisation du réseau, l'optimisation du système d'exploitation, l'optimisation des applications, l'optimisation des clients , etc. Améliorer l'expérience utilisateur
Planification globale du trafic du service : le trafic accédé au service est alloué à chaque salle informatique en fonction de la capacité et de l'état du service
Planification des tâches de service : le déclenchement de la planification et le déclenchement de diverses tâches planifiées /tâches non planifiées du service Surveillance de l'état
Garantie de sécurité du service : y compris la sécurité de l'accès au service, la prévention des attaques, le contrôle des autorisations, etc.
Technologie de transmission de données : y compris la recherche, le développement et l'application de diverses technologies de transmission tels que le p2p, ainsi que la transmission de Big Data longue distance et d'autres problèmes Résoudre
Libération et déploiement automatiques de services : développement de plates-formes/outils de déploiement et utilisation de plates-formes/outils pour obtenir une publication sûre et efficace de services
Gestion des clusters de services : y compris la gestion des serveurs de services et la gestion des clusters à grande échelle Attendez
Optimisation des coûts des services : réduisez autant que possible les ressources utilisées dans l'exploitation des services et réduisez les coûts d'exploitation des services
Base de données gestion (DBA) : Rendre les services de bases de données plus stables et plus efficaces en concevant, en développant et en gérant des clusters de bases de données hautes performances. Efficaces et plus faciles à gérer.
Développement de plates-formes : développement et gestion de plates-formes telles que Docker et technologie d'accès aux services
Optimisation du développement et accès aux plates-formes de stockage distribuées
, etc., toutes liées à la qualité et à l'efficacité du service, au coût, la sécurité et d'autres aspects du travail, ainsi que les technologies, composants, outils et plates-formes impliqués, relèvent tous du domaine technique de l'exploitation et de la maintenance. Faire du bon travail dans chaque direction technique et mener à bien la recherche et le développement des composants, outils et plates-formes correspondants peut jouer un rôle positif dans l'exercice des responsabilités d'exploitation et de maintenance et avoir un impact clé sur le développement commercial.
Classification des travaux d'exploitation et de maintenance Linux
Les travaux d'exploitation et de maintenance ont de nombreuses directions. Avec le développement continu de l'échelle commerciale, plus les entreprises Internet sont matures, plus les postes d'exploitation et de maintenance seront divisés en détail. À l'heure actuelle, de nombreuses grandes sociétés Internet n'en sont qu'à leurs débuts à l'exploitation et à la maintenance du système. À mesure que les exigences en matière d'échelle et de qualité de service augmentent, le travail a été progressivement subdivisé. Dans des circonstances normales, la classification des travaux (voir la figure 1-1) et les responsabilités de l'équipe d'exploitation et de maintenance sont les suivantes.
2.1-Exploitation et maintenance des applications (SRE) : l'exploitation et la maintenance des applications sont responsables des modifications des services en ligne, de la surveillance de l'état des services, de la reprise après sinistre des services et de la sauvegarde des données, etc., et effectuent des inspections de routine des services, la gestion des pannes d'urgence , etc. Les responsabilités du poste sont les suivantes : revue de la conception, gestion des services, gestion des ressources, inspections de routine, gestion des plans et sauvegarde des données.
2.2-Exploitation et maintenance du système (SYS) : Responsable de la construction d'IDC, du réseau, du CDN et des services de base (LVS, NTP, DNS) ; responsable de la gestion des actifs, de la sélection des serveurs, de la livraison et de la maintenance ; suit : construction du centre de données IDC, construction du réseau, équilibrage de charge LVS et construction SNAT, planification et construction du CDN, sélection, livraison et maintenance du serveur, sélection du noyau et travaux de maintenance liés au système d'exploitation, gestion des actifs et construction des services de base.
2.3-Exploitation et maintenance de la base de données (DBA) : l'exploitation et la maintenance de la base de données sont responsables de la conception de la solution de stockage de données, de la conception des tables de base de données, de la conception de l'index et de l'optimisation SQL, ainsi que des modifications, de la surveillance, de la sauvegarde, de la conception de haute disponibilité et d'autres tâches pour la base de données. Le contenu détaillé des travaux est le suivant : examen de la conception, planification de la capacité, sauvegarde des données et reprise après sinistre, surveillance des bases de données, sécurité des bases de données, haute disponibilité et optimisation des performances des bases de données, construction de systèmes automatisés, recherche et développement en matière d'exploitation et de maintenance, plate-forme d'exploitation et de maintenance. système de surveillance, système de déploiement automatisé.
2.4-Sécurité d'exploitation et de maintenance (SEC) : La sécurité d'exploitation et de maintenance est responsable du renforcement de la sécurité des réseaux, des systèmes et des entreprises, etc., effectue régulièrement des analyses de sécurité, des tests d'intrusion, la recherche et le développement d'outils et de systèmes de sécurité, et réponse d'urgence aux incidents de sécurité. Contenu du travail Comme suit : établissement d'un système de sécurité, formation à la sécurité, évaluation des risques, construction de sécurité, conformité en matière de sécurité et intervention d'urgence.
Logiciels et compétences d'utilisation quotidienne d'exploitation et de maintenance Linux
Les plates-formes et outils d'exploitation et de maintenance utilisés par les ingénieurs d'exploitation et de maintenance comprennent :
Serveur Web : apache, tomcat, nginx, lighttpd
Surveillance : nagios, ganglia, cacti, zabbix
Déploiement automatique : ansible, sshpt, salt
Gestion de la configuration : puppet, cfengine
Équilibrage de charge : lvs, haproxy, nginx
Outils de transmission : scribe , flume
Outils de sauvegarde : rsync, wget
Base de données : mysql, oracle, sqlserver
Plateforme distribuée : hdfs, mapreduce, spark, storm, hive
Base de données distribuée : hbase, cassandra, redis, MongoDB
Conteneurs : lxc, docker
Virtualisation : openstack, xen, kvm
Sécurité : kerberos, selinux, acl, iptables
Traçage des problèmes : netstat, haut, tcpdump, dernier
L'exploitation et la maintenance sont basées sur la technologie et fournissent des services de meilleure qualité grâce à des produits de garantie technique. Les responsabilités des travaux d'exploitation et de maintenance et leur position dans l'entreprise déterminent que les ingénieurs d'exploitation et de maintenance doivent avoir des connaissances plus approfondies et des capacités techniques approfondies :
Connaissances informatiques de base solides, y compris l'architecture du système informatique, les systèmes d'exploitation, le réseau technologie, etc. ;
Pour les applications générales, vous devez comprendre les systèmes d'exploitation, les réseaux, la sécurité, le stockage, le CDN, la base de données, etc., et connaître leurs principes associés
Compétences en programmation, allant du développement ; des outils d'exploitation et de maintenance aux systèmes/plateformes d'exploitation et de maintenance à grande échelle Tout développement nécessite de bonnes compétences en programmation
Capacité d'analyse des données : capable d'organiser et d'analyser diverses données de fonctionnement du système, de trouver des problèmes et de trouver des solutions ;
Une riche connaissance du système, y compris les outils système, l'architecture système typique, la sélection de plateformes communes, etc.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!