6월 5일 Vipshop은 2023년 3월 29일 오류 보고서를 발표했습니다. Nansha IDC 냉동 시스템 오류로 인해 Vipshop 온라인 몰이 서비스를 중단하여 수억 달러의 손실이 발생했습니다(소규모 운영 및 유지 관리로) 사람, 나는 떨린다).
Vipshop의 경우 온라인몰이 핵심 사업 진입점입니다. 실패는 피할 수 없지만, 실패가 오래 지속되면 용납할 수 없는 일입니다. 우리 같은 소규모 운영자의 눈에는 이 정도 규모의 회사에서는 이런 사고가 일어나서는 안 됩니다. 우리 모두는 그들의 PPT를 모방하고 배우면서 운영하고 유지하는 방법을 찾고 있습니다.
그런데 PPT는 너무 발전해서 오작동이 일어나는 것을 막을 수 없는 걸까요?
저는 개인적으로 몇 가지 추측을 해봅니다.
요즈음 국내 각종 기술 컨퍼런스에서는 일부 유명 기업의 CTO와 기술 리더를 초청해 강연을 하는 것으로 보아 모든 기업이 매우 대단합니다. 강함 (적어도 PPT에는 이렇게 나와 있습니다.) 들을 때마다 갑자기 깨닫고 큰 이익을 얻게 될 것입니다. 저는 진심으로 이 회사들을 존경하고 그들의 뛰어난 사고력과 뛰어난 능력과 정말 멋진 팀.
그러나 PPT는 결국 보조 도구일 뿐 현재 상태를 대체할 수는 없습니다.
아름다운 PPT는 보고 싶은 사람의 몫입니다. 아름답지 않은 것은 혼자 견뎌야 합니다.
전에 GOPS에서 Vipshop의 공유를 본 적이 있는데, 이것을 상사에게 보고할 때 상사도 우리 회사의 기술이 정말 뛰어나고 우리가 정말 잘하고 있다고 느낄 것입니다. 우리는 모든 좋은 환상을 상사에게 바쳤습니다.
뭔가 잘못되면 안하면 누구한테 하겠나?
입에서 나간 것은 무엇이든 입으로 돌아옵니다.
책 『SRE: Google Operations and Maintenance의 복호화』에서 결함 훈련은 넓은 공간을 차지합니다. 결함 훈련을 통해 시스템의 신뢰성과 내결함성을 향상시킬 수 있고, 팀은 시스템의 아키텍처와 작동 원리를 더 잘 이해할 수 있으며, 각 모듈의 상호 영향을 더 잘 이해할 수 있으며, 시스템 아키텍처의 허점과 허점을 더 잘 이해할 수 있습니다. 더 빨리 결함을 발견할 수 있습니다.
결함 훈련은 팀이 실제 결함을 최소화하고 발생할 수 있는 문제에 보다 효율적으로 대응할 수 있기 때문에 전체 안정성 보장의 핵심 링크라고 할 수 있습니다.
그런데 이게 현실인가요?
실제로 결함 훈련을 실시할 때에는 결함 지점을 미리 정하고, 구체적인 대책을 정리하여 출력해야 하며, 종합적인 계획을 지정하고, 각 개인의 직무 책임과 업무를 정확하게 기술해야 합니다.
이러한 준비 작업만으로도 많은 인력과 물적 자원이 필요합니다. 많은 팀과 많은 사람들이 단계와 조치를 간소화할 것입니다. 행운의 사고방식을 갖고 미래에 희망을 두십시오.
예를 들어 퍼블릭 클라우드에 기대를 걸고 퍼블릭 클라우드에 문제가 없다면 전체 시스템은 안정적이겠지만, 퍼블릭 클라우드≠는 구글 클라우드, 알리바바 클라우드, 텐센트 클라우드, 등등 모두 큰 사고를 당했지만, 그 대가를 치르는 것은 바로 이용자 자신입니다.
따라서 운영 및 유지 관리 팀이나 SRE 팀은 결함 훈련을 진지하게 받아들여야 합니다. 훈련을 위한 준비 작업을 수행할 뿐만 아니라 훈련 중 계획에 세심한 주의를 기울여 적시에 조치를 취하고 조치를 취해야 합니다. 문제가 발견되면 수정합니다.
훈련이 형식이 되게 하지 마십시오. 훈련을 KPI로 만들지 마십시오. 그렇지 않으면 귀하가 다음 최적화 목표가 될 것입니다.
3월 29일 Vipshop의 문제는 측면에서 반영될 수 있습니다. 장수하세요. 아마도 그냥 말일 수도 있습니다.
비즈니스가 발전함에 따라 고가용성에 대한 요구 사항이 점점 더 높아지고 있기 때문에 시스템 아키텍처는 계속 발전할 것입니다.
예를 들어, 동일한 컴퓨터실의 단일 머신 아키텍처에서 활성-대기 아키텍처로 업그레이드한 다음, 같은 도시의 다중 머신룸 아키텍처로 업그레이드하고, 마지막으로 두 곳에서 3센터 아키텍처 수준에 도달합니다. .
Vipshop이 같은 도시에 여러 개의 컴퓨터실을 구축했다면 같은 도시에 있는 가장 간단한 메인 시스템과 백업 시스템도 12시간 동안 다운되지 않을 것입니다.
같은 도시에서 듀얼 라이브를 한다면 말할 것도 없습니다.
그러나 저는 하나님의 관점에서 추측일 뿐입니다. 어쩌면 그 사람들도 일을 많이 하는데, 그냥 일을 많이 하는 척하고 있을 뿐입니다.
결국 재정, 인적, 물적 자원의 문제로 귀결되는데, 예를 들어 도시 전역의 재난을 대비하는 비용입니다. SRE 담당자가 상부에 자금 신청을 보고할 때, 윗 리더들이 지원을 안 하면(아직 돈이 안 들어오니까 돈을 많이 써야 한다), 회복은 더보처럼 간단하지 않다. 모든 것이 헛될 것입니다.
리더는 비용을 통제해야 하고, 부하 직원은 일을 하기 위해 돈이 필요합니다. 비용이 부족하면 생계를 꾸릴 수 없게 되어 PPT는 아름답지만 현실은 끔찍한 상황으로 이어질 것입니다.
야망이 있어도 소용없습니다.
뭔가 잘못되면 천국에 제물로 바치겠습니다.
위 내용은 순전히 허구입니다. 유사점이 있으면 좋아요 부탁드립니다~
많은 회사에서 운영 및 유지 관리에 대한 목소리가 너무 낮아서 말도 안되게 낮습니다. 운영과 유지관리 일을 하거나 물건을 홍보하는 일은 한걸음도 옮기기가 어렵습니다.
그러나 문제가 발생하면 운영과 유지보수가 가장 먼저 밀려나기 때문에 항상 운영과 유지보수를 '희생양'으로 비난받아 왔습니다.
그렇다면 우리는 운영 및 유지관리 담당자로서 무엇을 해야 할까요?
마지막으로 얘기하자면, 제작을 놀리지 마세요.
위 내용은 원활한 작동과 유지관리, 쇠솥의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!