首页 运维 安全 我为什么要把退休前的这段时间都用在和运维知识自动化系统死磕上

我为什么要把退休前的这段时间都用在和运维知识自动化系统死磕上

Jun 10, 2023 am 10:49 AM
优化 系统 自动化

​我的团队做系统优化是从2003年开始的。应HP SERVICE的邀请,2003年我加入了他们的海尔系统优化组,负责Oracle数据库的优化工作。这是我第一次参加大型系统的优化工作,甚至那时候我还不知道一个大型售后服务系统的优化该从何处入手。我是带着李维斯的一本书出发去青岛参加这个优化项目的,通过这个项目,我对Oracle数据库的优化有了初步的认识。后来我又帮助HP完成了对华为SCM系统所采用的CAF平台的性能评估,并对决策者建议及时中止这个项目,避免更大的资金浪费,因为这个项目已经无法优化了。后来HP采纳了我的建议,关闭了基于CAF平台的项目,华为也重新选择了Oracle EBS作为SCM系统和ERP系统的基础。从那以后,我们的团队规模越来越大,做的优化项目也越来越多,也锻炼出了一批做系统优化的专家。

2011年,我们开始帮助国家电网做系统优化,刚开始的几个项目在专家的带队下,效果都特别好。客户希望我们扩大优化范围,制订了一个需要近百名DBA的大型优化项目。我们从很多合作伙伴处招募了数十名DBA共同参与这个项目,为了确保项目的质量,我们对整个团队进行了多次集中培训。不过最后这个项目做下来效果很不理想,最主要的原因就是DBA的能力参差不齐,大多数没有参加过大型优化项目。从那个项目开始,我也在思考传统的依靠人和专家的运维模式存在的问题,希望找到一条道路,能够让专家的经验发挥更大的作用。这是我开发D-SMART,一个运维知识自动化系统的初衷。要想构建一个知识自动化系统,必须提高运中的数字化程度。不过传统行业IT运维的数字化程度很低。其主要原因有几个方面。

资源有限:很多企业可能没有足够的资源去投入研发和实施智能化运维系统,或者可能认为将资源投入其他方面更有回报。

文化因素:一些企业可能更愿意依靠人工经验而不是自动化系统,可能是因为他们缺乏对自动化系统的信任,或者他们可能认为在紧急情况下专家的判断比机器更可靠。

技术限制:一些企业可能缺乏必要的技术基础设施来支持智能化运维系统,这可能需要较高的成本投入来升级设备和系统。

意识不足:一些企业可能没有意识到数字化运维的潜在优势,或者可能没有足够的知识和了解数字化运维的实施方法。

虽然传统行业在运维数字化上存在各种认知的不足,但随着技术的发展和数字化的日益重要,智能化运维将成为未来信息系统运维的一个趋势,也是一个必然的方向。

反思我们这些年做系统优化与运维的工作经历,经验不足的技术人员是导致优化工作效果不佳的重要因素。优化工作需要专业知识和技能,而不是仅仅依靠经验。可能需要更加系统化的培训来确保所有参与优化工作的人员具备必要的技能和知识。此外,优化工作的效果也受到多个因素的影响,如系统设计,数据质量和优化工作的过程等。

随着技术的不断发展,现在已经有许多智能化的算法与方法可供使用,可以大大提高运维效率和减少人为错误。通过运维知识自动化工具可以提供智能化分析和自动化操作,以帮助DBA更好地管理和优化系统。如果企业有足够的资源,可以考虑引入这些工具和系统来改善运维效率。“运维知识自动化系统”结合了大数据分析、人工智能等技术,以及专家经验和工作积累,构建了一个全面的运维知识体系,可以帮助提高运维工作的效率和质量。通过监控指标体系、健康模型、运维知识图谱、异常检测算法等技术,“运维知识自动化系统”可以自动化地分析和解决系统性能问题,同时还能提供智能化的优化建议和决策支持,为企业的运维工作提供了强有力的支持。

实际上D-SMART系统开发的最重要的目的是对我们这个团队这二十多年在IT运维与系统优化上的经验的总结,让团队中的专家把这些年积累的经验变成可自动化执行的数字化知识库。并通过不断的迭代知识库,让运维知识不断的能够在平台中沉淀与积累,从而不断提升自动化分析的能力。

这个系统的研发不仅仅依赖于研发团队,知识工具的研发完全由DBA完成,而没有借助于普通的运维人员。这是因为普通的研发人员并不了解IT运维,不了解数据库,不了解性能优化。只有做过运维工作的DBA才能够更加准确的把专家的思路变成自动化的工具。

D-SMART系统的起点是指标体系,我认为指标是专家经验的一部分,而且是十分重要的一部分,专家认知后的指标才是可以完全解读的指标。而目前很多数据库监控软件提供的很多指标,运维人员无法正确解读,哪怕这些指标出现了异常,可能也无法被发现,或者说发现了指标异常也无法感知到系统哪个地方出现了问题。而专家梳理出来的指标数据都是单一可被专家解读的,因此每个指标都会被专家进行标注,打上特定的标签。

D-SMART的第二步是完成指标的准确采集,准确的采集到每个指标的数据对于智能化运维系统来说十分关键。要确保每个数据都能够准确的反映出数据库的真实状态十分关键。很多数据被采集回来后,需要经过加工才能变成可被使用的指标,这些加工算法里也体现了专家的经验。通过这个步骤,D-SMART系统在不断的获取数据库运行状态的数字化模型。

第三步是对采集回来的指标、日志数据进行自动化的建模分析。我们通过健康模型判断数据库的运行状态是否正常,是否存在风险;通过性能模型了解数据库的总体性能状态;通过负载模型了解数据库当前的负载情况;通过故障模型发现数据库可能存在的隐患,并及时报警。

第四步是利用这些被采集回来的数据自动完成各种巡检工作。比如日检,每天半夜系统会自动对前一天采集的数据做分析,发现其中的风险与隐患,并生成日检报告。每个月或者每个星期,可以定制任务对最近采集的数据进行自动化分析,生成巡检报告。这种巡检能够分析全面的数据,比传统的靠人工采集数据,人工进行分析的方式拥有更为丰富的数据。通过自动化分析的算法也更加高效。

利用这些数据,还可以做很多有价值的分析工作,比如容量预测、性能优化、专项审计等。同时利用标准化的指标体系,我们还可以构建一线运维与二三线运维的数字化沟通,通过完善的指标集,可以尽可能全面的为三线运维提供数据库运行的全景视图,真正做到不用到现场,专家可以尽知天下事。

前阵子80多岁的母亲一定要给我过个生日,这些年在外面跑,已经有十多年没有过生日了。插蜡烛的时候才发现,过完生日已经54岁,离退休已经时日无多了。我想在现在还能做点事情的时候,尽可能的能够把这些年积累的经验都数字化了,能够留下来,这样也就没有遗憾了。

以上是我为什么要把退休前的这段时间都用在和运维知识自动化系统死磕上的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

CUDA之通用矩阵乘法:从入门到熟练! CUDA之通用矩阵乘法:从入门到熟练! Mar 25, 2024 pm 12:30 PM

通用矩阵乘法(GeneralMatrixMultiplication,GEMM)是许多应用程序和算法中至关重要的一部分,也是评估计算机硬件性能的重要指标之一。通过深入研究和优化GEMM的实现,可以帮助我们更好地理解高性能计算以及软硬件系统之间的关系。在计算机科学中,对GEMM进行有效的优化可以提高计算速度并节省资源,这对于提高计算机系统的整体性能至关重要。深入了解GEMM的工作原理和优化方法,有助于我们更好地利用现代计算硬件的潜力,并为各种复杂计算任务提供更高效的解决方案。通过对GEMM性能的优

华为干昆 ADS3.0 智驾系统 8 月上市 享界 S9 首发搭载 华为干昆 ADS3.0 智驾系统 8 月上市 享界 S9 首发搭载 Jul 30, 2024 pm 02:17 PM

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为干昆ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。 8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为干昆ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

常用常新!华为Mate60系列升级HarmonyOS 4.2:AI云增强、小艺方言太好用了 常用常新!华为Mate60系列升级HarmonyOS 4.2:AI云增强、小艺方言太好用了 Jun 02, 2024 pm 02:58 PM

4月11日,华为官方首次宣布HarmonyOS4.2百机升级计划,此次共有180余款设备参与升级,品类覆盖手机、平板、手表、耳机、智慧屏等设备。过去一个月,随着HarmonyOS4.2百机升级计划的稳步推进,包括华为Pocket2、华为MateX5系列、nova12系列、华为Pura系列等多款热门机型也已纷纷展开升级适配,这意味着会有更多华为机型用户享受到HarmonyOS带来的常用常新体验。从用户反馈来看,华为Mate60系列机型在升级HarmonyOS4.2之后,体验全方位跃升。尤其是华为M

Linux和Windows系统中cmd命令的区别与相似之处 Linux和Windows系统中cmd命令的区别与相似之处 Mar 15, 2024 am 08:12 AM

Linux和Windows是两种常见的操作系统,分别代表了开源的Linux系统和商业的Windows系统。在这两种操作系统中,都存在着命令行界面,用于用户与操作系统进行交互。在Linux系统中,用户使用的是Shell命令行,而在Windows系统中,用户使用的是cmd命令行。Linux系统中的Shell命令行是一个非常强大的工具,可以完成几乎所有的系统管理任

C++ 程序优化:时间复杂度降低技巧 C++ 程序优化:时间复杂度降低技巧 Jun 01, 2024 am 11:19 AM

时间复杂度衡量算法执行时间与输入规模的关系。降低C++程序时间复杂度的技巧包括:选择合适的容器(如vector、list)以优化数据存储和管理。利用高效算法(如快速排序)以减少计算时间。消除多重运算以减少重复计算。利用条件分支以避免不必要的计算。通过使用更快的算法(如二分搜索)来优化线性搜索。

华为将在智能穿戴领域推出玄玑感知系统 可根据心率评估用户情绪状态 华为将在智能穿戴领域推出玄玑感知系统 可根据心率评估用户情绪状态 Aug 29, 2024 pm 03:30 PM

近日,华为宣布将于9月推出一款搭载玄玑感知系统的全新智能穿戴新品,预计为华为的最新智能手表。该新品将集成先进的情绪健康监测功能,玄玑感知系统以其六大特性——准确性、全面性、快速性、灵活性、开放性和延展性——为用户提供全方位的健康评估。系统采用超感知模组,优化了多通道光路架构技术,大幅提升了心率、血氧和呼吸率等基础指标的监测精度。此外,玄玑感知系统还拓展了基于心率数据的情绪状态研究,不仅限于生理指标,还能评估用户的情绪状态和压力水平,支持超过60项运动健康指标监测,涵盖心血管、呼吸、神经、内分泌、

优化WIN7系统开机启动项的操作方法 优化WIN7系统开机启动项的操作方法 Mar 26, 2024 pm 06:20 PM

1、在桌面上按组合键(win键+R)打开运行窗口,接着输入【regedit】,回车确认。2、打开注册表编辑器后,我们依次点击展开【HKEY_CURRENT_USERSoftwareMicrosoftWindowsCurrentVersionExplorer】,然后看目录里有没有Serialize项,如果没有我们可以单击右键Explorer,新建项,并将其命名为Serialize。3、接着点击Serialize,然后在右边窗格空白处单击鼠标右键,新建一个DWORD(32)位值,并将其命名为Star

Vivox100s参数配置大揭秘:处理器性能如何优化? Vivox100s参数配置大揭秘:处理器性能如何优化? Mar 24, 2024 am 10:27 AM

Vivox100s参数配置大揭秘:处理器性能如何优化?在当今科技飞速发展的时代,智能手机已经成为我们日常生活不可或缺的一部分。作为智能手机的一个重要组成部分,处理器的性能优化直接关系到手机的使用体验。Vivox100s作为一款备受瞩目的智能手机,其参数配置备受关注,尤其是处理器性能的优化问题更是备受用户关注。处理器作为手机的“大脑”,直接影响到手机的运行速度

See all articles