首页 运维 安全 井源:运维几何

井源:运维几何

Jun 09, 2023 pm 04:50 PM
运维

编者著:井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!

嘉宾介绍

井源:运维几何

井源,左一,前百度运维架构师,前小米运维负责人,前美菜CIO

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。

关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统:

监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率梳理告警阈值,规范P0、P1、P2、P3告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率

业内有观点认为云和Kubernetes这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是NO Ops,博客是noops.me。

很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN工程师、机房运维工程师等小20人的团队。后来通过引入公有云,团队只有4个人,云资源管理员1人、CDN调度工程师1人、网络工程师1人、内核工程师1人,他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着K8s和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?

在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。

另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。

人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地AIOps么?应该注意哪些问题?

就拿智能监控为例,看到了很多文案说要通过AI预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。

做AIOps的前提,是真的懂AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps才能不是一个口号。

chatGPT这样的AI能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)

BTW,如果你已经可以玩转chatGPT了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?

之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构。

安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?

我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。

您印象最深的一次故障是什么?对您有何启示?

运维这么多年,遇到的诡异故障太多了,root cause让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。

所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等。

面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?

比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和SRE的区别是什么?您的团队做出这样的转型,其背后的思考是?

这都2023年了,聊这个话题就跟互联网运维弄个NOC监控值班一样,开倒车。

如果现在还在考虑要不要转型SRE、怎么转型SRE、SRE的变化这些问题,就跟5g时代,还在考虑用2g,还是3g……都会被时代所淘汰。

是否有种戛然而止的感觉?哈哈,这是《运维百家讲坛》第1期,我们会持续邀请业内大佬前来分享,越是有不同的观点才越有意思,越是能够引发思考,咱们一起,抱着开放的心态,聆听百家之言。下一期,再见!

以上是井源:运维几何的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

运维工作十多年,无数个瞬间、我觉得自己还是个小白... 运维工作十多年,无数个瞬间、我觉得自己还是个小白... Jun 09, 2023 pm 09:53 PM

​曾几何时,当我还是一名初出茅庐的计算机专业应届生的时候,在招聘网站上浏览了很多招聘贴,眼花缭乱的技术岗位让我摸不着头脑:研发工程师、运维工程师、测试工程师...‍大学期间专业课马马虎虎,更谈不上有什么技术视野,对于具体从事那个技术方向并没有什么明确的想法。直到一位学长对我说:“做运维吧,做运维不用天天写代码,会玩Liunx就行!比做开发轻松多了!”‍‍‍‍‍‍‍‍我选择了相信......入行十多年,吃过很多苦,背了很多锅,弄死过服务器,经历过部门裁员,如果有人现在跟我说做运维比开发简单,那我会

Spring Boot Actuator端点大揭秘:轻松监控你的应用程序 Spring Boot Actuator端点大揭秘:轻松监控你的应用程序 Jun 09, 2023 pm 10:56 PM

一、SpringBootActuator端点简介1.1什么是Actuator端点SpringBootActuator是一个用于监控和管理SpringBoot应用程序的子项目。它提供了一系列内置的端点(Endpoints),这些端点可以用于查看应用程序的状态、运行情况和运行指标。Actuator端点可以以HTTP、JMX或其他形式暴露给外部系统,便于运维人员对应用程序进行监控、诊断和管理。1.2端点的作用和功能Actuator端点主要用于实现以下功能:提供应用程序的健康检查,包括数据库连接、缓存、

Spring Cloud微服务架构部署与运维 Spring Cloud微服务架构部署与运维 Jun 23, 2023 am 08:19 AM

随着互联网的快速发展,企业级应用的复杂度日益增加。针对这种情况,微服务架构应运而生。它以模块化、独立部署、可扩展性高等特点,成为当今企业级应用开发的首选。作为一种优秀的微服务架构,SpringCloud在实际应用中展现出了极大的优势。本文将介绍SpringCloud微服务架构的部署与运维。一、部署SpringCloud微服务架构SpringCloud

PG数据库运维工具要覆盖哪些能力 PG数据库运维工具要覆盖哪些能力 Jun 08, 2023 pm 06:56 PM

​过节前我和PG中国社区合作搞了一个关于如何使用D-SMART来运维PG数据库的线上直播,正好我的一个金融行业的客户听了我的介绍,打电话过来聊了聊。他们正在做数据库信创的选型,也试用了多个国产数据库,最后他们准备选择TDSQL。当时我觉得有点意外,他们从2020年就开始在做国产数据库选型,不过好像最初使用TDSQL后的感受并不太好。后来经过沟通才了解到,他们刚开始使用TDSQL的分布式数据库,发现对研发要求太高,所以后来就全部选择TDSQL的集中式MYSQL实例,用下来发现挺好用的。整个数据库云

什么是可观测性?初学者需要知道的一切 什么是可观测性?初学者需要知道的一切 Jun 08, 2023 pm 02:42 PM

可观测性一词来源于工程领域,近年来在软件开发领域也日益流行。简而言之,可观测性是指根据外部输出以了解系统内部状态的能力。IBM对可观测性的定义为:通常,可观测性是指基于对复杂系统外部输出的了解就能够了解其内部状态或状况的程度。系统越可观测,定位性能问题根本原因的过程就能越快速且准确,而无需进行额外的测试或编码。在云计算中,可观测性还指对分布式应用系统及支撑其运行的基础设施的数据进行聚合、关联和分析的软件工具和实践,以便对应用系统进行更有效地监控、故障排除和调试,从而实现客户体验优化、服务水平协议

途游邹轶:中小公司的运维怎么做? 途游邹轶:中小公司的运维怎么做? Jun 09, 2023 pm 01:56 PM

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。这里是接地气、有高度的《​​​运维百家讲坛​​》第6期,开讲!问题预览途游是游戏公司,您觉得游戏运维有哪些独特性?面临的最大运维挑战是什么?您又是如何解决这些挑战的?游戏运维的人

运维要不要学golang吗 运维要不要学golang吗 Jul 17, 2023 pm 01:27 PM

运维不要学golang,其原因是:1、golang主要被用于开发高性能和并发性能要求较高的应用程序;2、运维工程师通常使用的工具和脚本语言已经能够满足大部分的管理和维护需求;3、学习golang需要一定的编程基础和经验;4、运维工程师的主要目标是确保系统的稳定和高可用性,而不是开发应用程序。

度小满陈存利:20年老“司令”聊运维、绩效、成长 度小满陈存利:20年老“司令”聊运维、绩效、成长 Jun 09, 2023 am 09:56 AM

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。这一期我们邀请到的是陈存利,度小满系统运维部总经理,20多年的职业生涯中绝大部分时间在互联网领域。在百度运维部期间由于带队风格过硬,兄弟团队称其为”陈司令”。今天我们请“陈司令”来聊聊他的观点。这里是接地气、有高度的《​​​运维百家讲坛​​》第5期,开讲!问题预览您很早加入了百度,后来随度小满独立,我们了解到您身边有许多员工其实是很长时间一直跟随着您,经历了很多业务的运维考验,相信大家都很感兴

See all articles