流水的运维,铁打的锅
在 6 月 5 号,唯品会发布了 23 年 3 月 29 号的故障报告,因为南沙 IDC 冷冻系统故障导致唯品会线上商城停止服务,造成了数以亿计的损失(作为小运维的我,瑟瑟发抖)。
对于唯品会来说,线上商城是其核心业务入口,故障不可避免,但是故障如此之长却不能容忍,为什么会造成这种事情发生呢?在我们这种小运维的眼里,这种事故不应该发生在这种量级的公司中,我们都是在模仿、学习他们的 PPT 中寻找运维之路。
但是,PPT 的高大上,无法压住故障不发生,这是为什么呢?
我个人斗胆说几种猜测:
- PPT≠ 现实
- 故障演练=走过场?
- 多活,说说而已?
- 巧妇难为无米之炊
PPT≠ 现实
现在国内各种技术大会,然后邀请一些知名企业的 CTO、技术负责人等到场演讲,从演讲来看,每家公司都很强(至少 PPT 上是这样展示的),每次我听完都会豁然开朗,大受裨益,打心底佩服这些公司,佩服他们超强的思维、超高的能力以及超酷的团队。
但是,PPT 毕竟只是一个辅助工具,它不能代替现状。
漂亮的 PPT 只是给想看的人看的,不漂亮的事情是要独自去承受的。
之前有看多唯品会在 GOPS 上的分享,PPT 上呈现的确实很棒,如果拿着这个向上汇报,老板也会觉得我们公司的技术真厉害,做的真好,给了老板一切都很好的假象。
出了问题,不办你办谁?
从自己嘴里吹出去的牛逼,也会回到自己嘴里。
故障演练=走过场?
在《SRE:Google 运维解密》这本书中,故障演练占了很大的篇幅。通过故障演练,可以提高系统的可靠性和容错性,可以让团队更好的了解系统的架构和工作原理,可以更好的理解各模块的相互影响,可以更快的发现系统架构中的漏洞和故障。
可以说,故障演练是整个稳定性保障的核心环节,因为它可以帮助团队最大限度的减少实际故障的同时,也能更高效的应对可能出现的问题。
但是,实际中是这样的么?
在实际进行故障演练的时候,要预定故障点,要整理输出具体的应对措施,要指定全面的计划,要准确描述每个人的工作职责和任务。
光这些前置工作就需要耗费很大的人力物力,很多团队、很多人就会精简步骤、精简措施,抱着做了就行的心态看待故障演练,抱着侥幸心态看待故障本身,把希望寄托在别人不出问题的情况下。
比如把希望寄托于公有云,公有云不出问题,整个系统就是稳定的,但是公有云 ≠ 完全可靠,谷歌云、阿里云、腾讯云等都发生过重大事故,然而买单的还是用户自己。
所以,对于运维团队或者 SRE 团队,需要认真对待故障演练,不仅要做好演练的前置准备工作,在演练中也要密切关注计划,发现问题及时采取措施并进行修正。
不要让演练成为走过场,不要让演练成为 KPI,不然你就是下一个优化对象。
多活,说说而已?
3 月 29 日唯品会的问题,可以从侧面反映:多活,也许真是说说而已。
随着业务的发展,系统架构会不断演变,因为我们对高可用的要求越来越高。
例如,从单机架构在同一机房升级到主备架构,再升级到同城多机房架构,最终到达两地三中心架构等级。
如果唯品会做了同城多机房,就算最简单的同城主备,也不至于宕机 12 个小时。
更别说如果做了同城双活。
但是,我只是站在上帝视角猜测。也许他们也做了多活,只是假多活罢了。
巧妇难为无米之炊
上面总总,到头来都会走到财力、人力、物力上来,就拿多活来说,搞一个同城灾备,投入的成本就不是 dubbo 那么简单,每当 SRE 负责人向上汇报申请资金的时候,如果上面的领导不予支持(钱,钱没挣,还要花这么多),什么都是白搭。
领导要压成本,下面要钱做事,成本不足导致入不敷出,也就会出现 PPT 漂亮,实际很烂的局面。
纵有一腔抱负,乃无用武之地。
出了问题,还要用你祭天。
最后
上面所说纯属虚构,如有雷同,请点赞~
在很多公司,运维的话语权很低,低到离谱,这就导致运维在做事或者推进事情的时候寸步难行。
但是,一旦出现问题,运维却是被第一个推出来的,所以“背锅侠”一直被扣在运维头上。
那作为运维应该怎么做呢?
- 走出去——不要局限于运维团队内部,要走出去,让业务部门知道运维的价值。
- 走进去——运维知识体系复杂多变,要走进知识内部,深度理解背后的原理,用你的专业来为团队服务。
- 走上去——要提升运维影响力,通过专业的能力和积极的态度争取更多的信任和支持,改变现状,提升地位。
最后,说归说,闹归闹,别拿生产开玩笑。
以上是流水的运维,铁打的锅的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

曾几何时,当我还是一名初出茅庐的计算机专业应届生的时候,在招聘网站上浏览了很多招聘贴,眼花缭乱的技术岗位让我摸不着头脑:研发工程师、运维工程师、测试工程师...大学期间专业课马马虎虎,更谈不上有什么技术视野,对于具体从事那个技术方向并没有什么明确的想法。直到一位学长对我说:“做运维吧,做运维不用天天写代码,会玩Liunx就行!比做开发轻松多了!”我选择了相信......入行十多年,吃过很多苦,背了很多锅,弄死过服务器,经历过部门裁员,如果有人现在跟我说做运维比开发简单,那我会

一、SpringBootActuator端点简介1.1什么是Actuator端点SpringBootActuator是一个用于监控和管理SpringBoot应用程序的子项目。它提供了一系列内置的端点(Endpoints),这些端点可以用于查看应用程序的状态、运行情况和运行指标。Actuator端点可以以HTTP、JMX或其他形式暴露给外部系统,便于运维人员对应用程序进行监控、诊断和管理。1.2端点的作用和功能Actuator端点主要用于实现以下功能:提供应用程序的健康检查,包括数据库连接、缓存、

随着互联网的快速发展,企业级应用的复杂度日益增加。针对这种情况,微服务架构应运而生。它以模块化、独立部署、可扩展性高等特点,成为当今企业级应用开发的首选。作为一种优秀的微服务架构,SpringCloud在实际应用中展现出了极大的优势。本文将介绍SpringCloud微服务架构的部署与运维。一、部署SpringCloud微服务架构SpringCloud

过节前我和PG中国社区合作搞了一个关于如何使用D-SMART来运维PG数据库的线上直播,正好我的一个金融行业的客户听了我的介绍,打电话过来聊了聊。他们正在做数据库信创的选型,也试用了多个国产数据库,最后他们准备选择TDSQL。当时我觉得有点意外,他们从2020年就开始在做国产数据库选型,不过好像最初使用TDSQL后的感受并不太好。后来经过沟通才了解到,他们刚开始使用TDSQL的分布式数据库,发现对研发要求太高,所以后来就全部选择TDSQL的集中式MYSQL实例,用下来发现挺好用的。整个数据库云

可观测性一词来源于工程领域,近年来在软件开发领域也日益流行。简而言之,可观测性是指根据外部输出以了解系统内部状态的能力。IBM对可观测性的定义为:通常,可观测性是指基于对复杂系统外部输出的了解就能够了解其内部状态或状况的程度。系统越可观测,定位性能问题根本原因的过程就能越快速且准确,而无需进行额外的测试或编码。在云计算中,可观测性还指对分布式应用系统及支撑其运行的基础设施的数据进行聚合、关联和分析的软件工具和实践,以便对应用系统进行更有效地监控、故障排除和调试,从而实现客户体验优化、服务水平协议

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。这里是接地气、有高度的《运维百家讲坛》第6期,开讲!问题预览途游是游戏公司,您觉得游戏运维有哪些独特性?面临的最大运维挑战是什么?您又是如何解决这些挑战的?游戏运维的人

运维不要学golang,其原因是:1、golang主要被用于开发高性能和并发性能要求较高的应用程序;2、运维工程师通常使用的工具和脚本语言已经能够满足大部分的管理和维护需求;3、学习golang需要一定的编程基础和经验;4、运维工程师的主要目标是确保系统的稳定和高可用性,而不是开发应用程序。

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是陈存利,度小满系统运维部总经理,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请“陈司令”来聊聊他的观点。这里是接地气、有高度的《运维百家讲坛》第5期,开讲!问题预览您很早加入了百度,后来随度小满独立,我们了解到您身边有许多员工其实是很长时间一直跟随着您,经历了很多业务的运维考验,相信大家都很感兴
