从监控到诊断:数据的力量
监控与诊断一直是数据库运维中的两个十分重要的环节,在传统的运维模式中,监控与诊断都是以人为中心的,因此指标与数据的采集也都要围绕人来展开。
监控数据是需要人来看的,通过人的查看,可以发现监控数据中存在的异常或者值得警惕的地方。不同水平的DBA能从数据中看出不同级别的风险。因为是需要人看,所以展示的指标不能太多,否则监控人员就眼花缭乱了。实际上,上图的关键指标的数量对于监控来说已经太多了。
对于依靠人的监控而言,简要而直观的指标展示是十分必要的。对于数据库来说,只关注三五个关键指标才能更好的实现人工监控。我的一个金融客户,对于核心系统,他们只关注活跃会化数指标,有一个监控人员随时盯住这个指标看,一旦出现异常就点击相关的指标,进行诊断分析。
这是根据他们的需求修改的指标历史数据监控页,一旦活跃会话数指标超标就点击进去诊断。在这个页面中我们提供了一个“问题分析”工具。
问题分析工具可以根据时间窗口分析系统中存在的问题(当前问题或者历史问题),而等待事件分析工具则可以从等待事件的角度来帮助DBA分析系统中可能存在的性能问题。
不管怎么样,监控的目的是让DBA工作的更简单,还是为人服务的,以人为中心的。可能有朋友对此不认可,认为监控也可以自动化,比如基线告警。实际上基线告警也是类似的,比如基线告警可以通过短信告诉你活跃会话数异常了。但是如果基线告警模板设置了太多的指标,那么告警风暴的处理就很麻烦了。不精准的告警会让告警功能如同虚设。
传统的诊断也是以人为中心的,当系统出问题的时候才去系统中查找各种信息,进行分析。这种分析十分依赖于DBA的个人能力。当用户发生大问题的时候,总是希望高水平的专家能尽快到现场来处置。
随着企业数字化的发展,以人为中心的这种监控诊断模式的成本越来越高,专家也不太愿意在一线现场坐镇。因此节约人力成本,节约专家的时间成为了数据库运维中十分重要的需求。实际上随着硬件的发展,数据采集,存储与计算的成本已经十分低廉了。因此在现代的数据库监控系统中,采集并保存更为完整的监控数据已经不是成本太高的事情。
如果日常采集的数据足够丰富,那么自动化诊断和远程诊断就会变成可能。诊断工作所需的数据已经在离线采集的数据库中了,绝大多数诊断工具都不需要再从数据库实例中临时采集数据,那么当数据库出现异常的时候,自动诊断工具可以毫无风险的在后台进行自动分析。
这里说的毫无风险是指自动化诊断工作本身不会给数据库实例带来任何风险。如果在自动化诊断中还需要从数据库临时采集一些数据,那么如果这种采集本身带有风险,那么在一个本身就存在故障的数据库实例上,可能就是一种雪上加霜的举动。我们曾经做过一个共享池碎片自动诊断分析的工具,需要对KGH的数据进行分析,这个工具曾经就搞宕过数据库。因此在指标自动化采集与自动化诊断上,我们会尽可能规避此类风险的出现。
想要实现这一切,其后面最重要的力量是数据,数据时首先监控与诊断自动化的基础。实际上在数据库自动化运维中,指标集与数据采集本身就包含了丰富的运维知识。某种数据库应该采集哪些指标,该如何更好,无风险的采集数据库的指标,是十分有价值的运维知识。
今年,我们将会把D-SMART中Oracle,Mysql、Postgresql、达梦、金仓等数据库的指标集开源出来,也希望大家能够加入到我们这个行列里,共同丰富与完善这个开源指标集。
以上是从监控到诊断:数据的力量的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题











DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

PHP500错误全面指南:原因、诊断和修复在PHP开发过程中,我们经常会遇到HTTP状态码为500的错误。这种错误通常被称为"500InternalServerError",它是指在服务器端处理请求时发生了一些未知的错误。在本文中,我们将探讨PHP500错误的常见原因、诊断方法以及修复方法,并提供具体的代码示例供参考。1.500错误的常见原因1.

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

这周,由OpenAI、微软、贝佐斯和英伟达投资的机器人公司FigureAI宣布获得接近7亿美元的融资,计划在未来一年内研发出可独立行走的人形机器人。而特斯拉的擎天柱也屡屡传出好消息。没人怀疑,今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司SanctuaryAI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它能够自主识别物体的
