目录
关于工具平台
关于外部供应商
关于应急故障处理
关于变更发布
关于成本优化
小结
首页 运维 安全 终结这个话题:运维岗位真的不能干了么?

终结这个话题:运维岗位真的不能干了么?

Jun 09, 2023 pm 06:57 PM
运维

终结这个话题:运维岗位真的不能干了么?

上周五马驰和来炜在线交流,话题是运维岗位真的不能干了么?我作为主持人,既是点火的又是拉架的 :) 听两位老兵分享了一些他们各自的观点,受益匪浅。今天抓紧记录一下,以免忘记,算是对直播的一个复盘。

关于工具平台

工具平台会取代一部分人工,这个其实是显而易见的,无需多言。

但是工具平台谁来构建呢?这个值得捋一下。监控系统、CI/CD的平台、混沌工程的平台、中间件服务等,都是Platform,由Platform Engineer来构建,简称PE。PE显然是拆成很多小组的,每个PE小组负责有限的几个平台。这些零散的PE小组整体可以组成一个大的团队,比如叫基础架构团队,也可以拆到多个团队,比如跟工程效能相关的PE小组放到一个部门(比如效能工程部门),数据库、大数据相关的PE小组放到一个部门(比如数据部门),稳定性保障相关的PE小组放到一个部门(比如运维部)。

这个组织的划分,不同公司可能不同,关系倒不是很大,关键是PE团队应该怎么开展工作?PE团队核心要做好以下事项:

  • 构建好用的平台,让业务研发团队来自助服务
  • 平台要沉淀最佳实践。平台需要满足业务,但也要有业界最佳实践,理论上,如果业务需求和业界最佳实践相冲突的时候,尽量应以业界最佳实践为准,如果短期实在无法做到,也应该制定分步落地的计划,争取未来要做到,否则个性的东西、反模式的东西越来越多,Platform侧就会越来越难受,最后不堪重负,推倒重来,一地鸡毛
  • 要想方设法使用平台来落地规范,而不是用规章制度来落地规范,马驰举了一个例子挺好的,他们有个规范,是要求业务程序不能利用本地磁盘存储状态数据,他们没有把这个作为红线法令颁布,而是明确告诉业务方会定期重启容器,让容器漂移!其实用过aws的人应该知道,aws的虚机有的时候也会莫名重启,面向不可靠的基础设施提供高可用的应用程序,本就是应用研发人员的职责
  • 需要COE(领域专家)来指导Platform的演进,因为擅长数据库的架构师未必擅长Hadoop,擅长Hadoop的架构师未必擅长可观测性系统,擅长可观测性系统的架构师未必擅长混沌工程。

但所有的Platform都不是一蹴而就的,如果还没有这些Platform,怎么办?公司应该先去招聘COE,让COE来一边做业务顾问,一边建设Platform的能力,业务发展很快,Platform自研太慢,也可以寻求外部供应商的解决方案。甚至COE本身,都是可以寻求外部解决方案的,视情况而定。

关于外部供应商

大家直观上会觉得:欧美的公司更乐于采购SaaS服务,国内的公司更乐于基于开源自建。是不是因为国内的公司理念不行?不尽然。国内很多领域缺少靠谱的ToB企业和产品才是最核心的问题。试想,如果某个ToB公司可以为甲方提供:

  • 优秀的、先进的方法论
  • 稳定的、易用的产品
  • 优秀的、稳定的客户成功团队,帮助客户更好的落地最佳实践
  • 价格上,比甲方自己招聘人员自研更便宜

只要CXO脑子没坏,肯定会选择引入这样的外部供应商。但是这样的ToB公司有么?这是个大大的问号。我们创建快猫星云公司,为客户提供可观测性产品,力争成为这样的供应商。希望业界ToB同仁一起努力!

延展一下择业问题,虽然某个细分领域可能现在还没有很好的供应商,但是3年以后呢?5年以后呢?国外是不是已经率先有了?国内是不是有潜力不错的供应商了?如果已经有了,兄弟,你还敢继续投身在这个细分领域么?是否应该早做一些打算?

当然了,对于未来的预估,我们通常过于乐观,也过于悲观,对时间的预估,通常预估的超前,也预估的滞后。道理如此,兄弟,就看你怎么判断了。

关于应急故障处理

应该由研发来OnCall故障响应?还是运维?这个问题很有意思。马驰认为,线上80%的故障跟变更相关,变更是研发做的,研发显然更熟悉,让研发来OnCall故障响应,就意味着,80%的问题研发可以更快的响应。

业务研发如此,数据库变更、基础网络变更、接入层的变更,都是同样的道理,做变更的那个人来响应自己的服务的故障告警,看起来是比较合理的。

实际上,这取决于两个前提:

  1. 监控、可观测性做的足够好,变更导致的问题能够通过这套平台及时发现,大家加油,希望每个公司都有一套完备的可观测性体系
  2. 变更引入的问题是即时体现的,有些变更引入的问题如果一周之后才出现,做变更的人也很难怀疑到自己头上

其实我们可以分两种情况对待,变更之后的服务稳定性监测,本就是这个做变更的人的分内之事,日常OnCall是另一个场景,单独对待。那日常OnCall应该由谁来做呢?应该是那些可以直接参与故障定位、止损的人,道理很明显,如果OnCall的人收到告警还需要去联系别人,那这个故障止损的时效性就太差了。

所以首先,应该对告警分门别类的处理,不同的人OnCall不同的告警。所有的告警都交给研发或者都交给运维,这种绝对的做法是不合理的。

关于变更发布

最终目标是有共识的,就是让业务研发可以自由发布版本,但是我们又希望受控,希望安全的发布,希望在发布的同时保障业务连续性。这就对CI/CD的系统提出了极高的要求。

如果不管不顾,变更系统的底层就是去一批机器上批量跑个脚本的事情。但是附加了上述这些要求之后,就困难了很多,变成了一个系统性工程。

业务研发侧,需要做好埋点可观测,需要监控类的系统能够及时发现问题,甚至告警之后自动阻断发布流程。需要有一些蓝绿发布、金丝雀发布的手段落地,需要有些自动代码扫描、安全扫描的能力,工具体系不完备,一味地要求研发确保变更可回滚,确保变更安全也是不合适的。CI/CD的能力水平如何,基本可以看出这个公司的技术实力。

如果你所在的公司,还是研发给运维提单,运维去线上操作,要掂量一下这么做是否合理了哈。当然,上面的做法更多的是偏互联网的做法,未必适合所有的公司,这个直播也只是提供一个思路,你要自行斟酌。

当然了,这个理想的情况怎么达到?在这个理想的情况达成之前应该怎么一步一步走过去?时间问题,直播里并未探讨。如果公司的业务适合跑在Kubernetes上,用Kubernetes来构建这么一套体系是相对容易的,可以尽快行动起来。如果公司的业务必须跑在物理机、虚拟机环境,那就先搞一个统一的变更发布平台,然后哪里缺失补哪里,逐渐完善了。

关于成本优化

两位嘉宾谈的不多,不过大家对这个事情都非常慎重。提醒大家:

  1. 人比硬件贵,千万不要做花费了5000万的人力,节省了4000万硬件成本的事情
  2. 要给业务留出足够的冗余算力,如果资源用的太过紧张,该批的预算不批,因为容量导致故障的话,客户体验受损、舆论不利,得不偿失
  3. 可笑的例子是,用3000万买量,为了节省300万的硬件成本,没抗住量,真的就呵呵了

小结

现在这个阶段,平台体系还没有那么完备,使用自助Platform+COE+BP(Business Partner)的架构来搭建运维体系看起来是靠谱可落地的。未来Platform足够好的的时候,可以缩减BP人力(BP也慢慢具备了COE的能力),Platform继续完备,可以继续缩减COE,再之后,嗯,运维和研发可能就都不需要了吧。

以上是终结这个话题:运维岗位真的不能干了么?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

运维工作十多年,无数个瞬间、我觉得自己还是个小白... 运维工作十多年,无数个瞬间、我觉得自己还是个小白... Jun 09, 2023 pm 09:53 PM

​曾几何时,当我还是一名初出茅庐的计算机专业应届生的时候,在招聘网站上浏览了很多招聘贴,眼花缭乱的技术岗位让我摸不着头脑:研发工程师、运维工程师、测试工程师...‍大学期间专业课马马虎虎,更谈不上有什么技术视野,对于具体从事那个技术方向并没有什么明确的想法。直到一位学长对我说:“做运维吧,做运维不用天天写代码,会玩Liunx就行!比做开发轻松多了!”‍‍‍‍‍‍‍‍我选择了相信......入行十多年,吃过很多苦,背了很多锅,弄死过服务器,经历过部门裁员,如果有人现在跟我说做运维比开发简单,那我会

Spring Boot Actuator端点大揭秘:轻松监控你的应用程序 Spring Boot Actuator端点大揭秘:轻松监控你的应用程序 Jun 09, 2023 pm 10:56 PM

一、SpringBootActuator端点简介1.1什么是Actuator端点SpringBootActuator是一个用于监控和管理SpringBoot应用程序的子项目。它提供了一系列内置的端点(Endpoints),这些端点可以用于查看应用程序的状态、运行情况和运行指标。Actuator端点可以以HTTP、JMX或其他形式暴露给外部系统,便于运维人员对应用程序进行监控、诊断和管理。1.2端点的作用和功能Actuator端点主要用于实现以下功能:提供应用程序的健康检查,包括数据库连接、缓存、

Spring Cloud微服务架构部署与运维 Spring Cloud微服务架构部署与运维 Jun 23, 2023 am 08:19 AM

随着互联网的快速发展,企业级应用的复杂度日益增加。针对这种情况,微服务架构应运而生。它以模块化、独立部署、可扩展性高等特点,成为当今企业级应用开发的首选。作为一种优秀的微服务架构,SpringCloud在实际应用中展现出了极大的优势。本文将介绍SpringCloud微服务架构的部署与运维。一、部署SpringCloud微服务架构SpringCloud

PG数据库运维工具要覆盖哪些能力 PG数据库运维工具要覆盖哪些能力 Jun 08, 2023 pm 06:56 PM

​过节前我和PG中国社区合作搞了一个关于如何使用D-SMART来运维PG数据库的线上直播,正好我的一个金融行业的客户听了我的介绍,打电话过来聊了聊。他们正在做数据库信创的选型,也试用了多个国产数据库,最后他们准备选择TDSQL。当时我觉得有点意外,他们从2020年就开始在做国产数据库选型,不过好像最初使用TDSQL后的感受并不太好。后来经过沟通才了解到,他们刚开始使用TDSQL的分布式数据库,发现对研发要求太高,所以后来就全部选择TDSQL的集中式MYSQL实例,用下来发现挺好用的。整个数据库云

什么是可观测性?初学者需要知道的一切 什么是可观测性?初学者需要知道的一切 Jun 08, 2023 pm 02:42 PM

可观测性一词来源于工程领域,近年来在软件开发领域也日益流行。简而言之,可观测性是指根据外部输出以了解系统内部状态的能力。IBM对可观测性的定义为:通常,可观测性是指基于对复杂系统外部输出的了解就能够了解其内部状态或状况的程度。系统越可观测,定位性能问题根本原因的过程就能越快速且准确,而无需进行额外的测试或编码。在云计算中,可观测性还指对分布式应用系统及支撑其运行的基础设施的数据进行聚合、关联和分析的软件工具和实践,以便对应用系统进行更有效地监控、故障排除和调试,从而实现客户体验优化、服务水平协议

途游邹轶:中小公司的运维怎么做? 途游邹轶:中小公司的运维怎么做? Jun 09, 2023 pm 01:56 PM

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。这里是接地气、有高度的《​​​运维百家讲坛​​》第6期,开讲!问题预览途游是游戏公司,您觉得游戏运维有哪些独特性?面临的最大运维挑战是什么?您又是如何解决这些挑战的?游戏运维的人

运维要不要学golang吗 运维要不要学golang吗 Jul 17, 2023 pm 01:27 PM

运维不要学golang,其原因是:1、golang主要被用于开发高性能和并发性能要求较高的应用程序;2、运维工程师通常使用的工具和脚本语言已经能够满足大部分的管理和维护需求;3、学习golang需要一定的编程基础和经验;4、运维工程师的主要目标是确保系统的稳定和高可用性,而不是开发应用程序。

度小满陈存利:20年老“司令”聊运维、绩效、成长 度小满陈存利:20年老“司令”聊运维、绩效、成长 Jun 09, 2023 am 09:56 AM

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是陈存利,度小满系统运维部总经理,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请“陈司令”来聊聊他的观点。这里是接地气、有高度的《​​​运维百家讲坛​​》第5期,开讲!问题预览您很早加入了百度,后来随度小满独立,我们了解到您身边有许多员工其实是很长时间一直跟随着您,经历了很多业务的运维考验,相信大家都很感兴

See all articles