不会建数据资产体系的SRE,不是一名好运维
一、认识数据资产
1. 数据资产——企业IT价值
图片
如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。
建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。
运营数据经过采集、整编后,可服务于自身决策和业务流程。
2. 数据资产——以运维场景为例
图片
上图以场景为例,介绍了数据资产的分类。要理解数据资产,需要理解数据资产的三个要素,即数据类型、数据形式和数据载体的对应关系。
- 数据类型:运维特征的信息描述
业务指标层面,SRE关注交易耗时、交易订单量等信息;操作软件层面,SRE关注用户IP、接口调用情况等信息;基础设施层面,则关注对应的网络丢包率、内存占用或CPU使用率等信息;再深入,SRE会更加关注变更事件、发布试点或紧急变更的数量等数据。
- 数据形式:数据储存于数据载体的形式
我们根据日志类、关系类及监控类等数据的不同表现形式,选择相应存储方式,比如关系型数据库、持续性数据库、消息队列或者日志文件等。
- 数据载体:为运维数据提供存储的方式
3. 数据资产——提升SRE价值
图片
根据获得的运维数据,首先建设一个资产化平台,例如后文提到的CMDB。利用这些平台,根据消费场景对大量的运维数据进行分解和管理,从而实现资产化。
另外,我们可以利用数字资产平台快速建立和改进与SRE稳定性相关的平台,如SLO和容量管理平台。一旦平台建立成功,我们将持续探索数据的潜在价值,并提升SRE所关注的稳定性。
二、数据治理-方法论
1. 运维数据标准面临的问题
图片
运维数据标准化面临的问题,和大数据场景下数据质量的问题类似,主要包括数据孤岛、数据质量不高、数据不可知、数据服务不够、获取数据的开发耗时长等。
这些问题导致,数据消费场景难以快速迭代,无法满足业务需求。当人力资源、服务器资源、中间件资源等不足时,数据标准化建设将带来灾难性的影响。
运维数据天生是不标准的,比如,日志和日志监控的数据存储方式不同。而我们要在资源有限的情况下,进行最大化阐述,完成标准化。
针对近期业内比较火的概念,比如DataOps、AIOps等模型或场景,我们还缺少成熟、全面的数据建模方法论。
2. 建立运维数据治理模型
将运维数据提升为数据资产,需围绕治理方法、治理过程和技术平台三部分展开。
图片
1)治理方法
- 主数据管理:将SRE关注的数据进行定义和拆分。比如,主机和CLP等数据可作为主数据,我们对其进行生命周期管理。
- 广义元数据管理:这些数据在闭环的上报流程中,进入到CMDB,就是广义元数据管理。以CMDB的模式为代表,向上层提供相应的数据支撑。
- 关键治理链路:基于数据标准、治理质量和安全基线三个维度,梳理整个治理链路,即数据标准、质量目标、整个变更的基线要求。
2)治理过程
治理过程包括策略、建设与运营。整体建设方面,需要建设平台和工具,辅助自身运营。
3)技术平台
建立技术平台的主要目的是,通过工具支撑存量和增量数据。
3. 聚焦数据治理关键要素
数据治理的关键要素主要围绕四方面:组织保障、制度建设、项目落地和平台支撑。
- 组织保障:为解决人力资源问题,我们明确成员角色和职责分工。由产品、运营和研发三种角色,组成数据治理专项团队。
- 制度建设:需要建设标准化流程,并保证其有序落实,比如资源接入、资源开发、资源数据模型等规范。
- 项目落地:开始整体的专项治理,数据治理是长效的过程,而非简单的运动式作战。如果数据质量严重不达标,我们会成立专项小组,采取运动式的作战方式,紧急修复数据质量的问题。但建立长效治理手段需根据数据产品,输出对应的治理方法论,并将其落实为产品化的平台手段,以此驱动数据责任方进行数据治理。
- 平台支撑:平台建设主要围绕精细度量、执行治理效率等维度进行。
三、CMDB平台建设
1. CMDB配置管理库
CMDB配置管理处,主要围绕四方面进行建设:基础备案的技术台账、详细自然属性、自然关联关系、资源消费图谱。我们需要分层建立对应业务的模型,再通过自动化感知或标准化流程,实时推送配置动态。
对应配置也需要有对应的可视化界面,激发协作力量,最终,这些数据通过APP或相应离线场景,促进数据的消费场景。
2. CMDB在ITIL时代的定位——元数据中心
个人理解,CMDB是元数据中心。如上图所示,我们配置管理的数据库CMDB,会对组织、人员、决策、权限、流程等相关数据进行清洗或组装操作。
下层对接的平台很多,比如监控平台、邮件、短信、运维的数据库等。这些数据组装完毕后,会交由上层(类似服务管理层的平台)进行数据输出,完成资产管理、配置管理等一系列服务,并进行平台建设。
3. CMBD在新时代的定位——以应用为中心
、
以应用为中心,可以实现组织-项目-人员的关联关系,并与应用绑定。
应用运行过程中,使用对应资源(服务器资源、配置中心、可观测性指标等),再按照公司的组织架构形成从属关系,最终把组织架构视角引用到微服务视角,形成资源及其资源的关系——拓扑,其中包括应用拓扑、物理拓扑。
4. 以应用为中心的CMDB优势
图片
5. 应用在运行期间与元数据中心的关系
图片
上图所示为CMDB,它会将基础测试设施的元数据、Paas相关数据及运行数据,提供给上层(CI平台、CD平台、服务运行平台和服务运营平台)使用,图中所示的下层平台就形成服务资源支撑平台。
这样建设的好处是,为应用的全生命周期提供基本的数据支撑,包括应用创建、应用运行时态(构建、发布、扩容、计费)、回收应用下线后资源。
6. CMDB建设的四大阶段
图片
上图是建设CMDB的四大阶段,我们目前处于从服务导向到价值导向的第四阶段。
部门导向:
- 不论有无CMDB系统,实际都存在CMDB需求,以部门为单元维护配置信息;
- 信息是孤立的、不及时的,无法保证完整性和正确性。
数据导向:
- 各部门都关心的数据及相互关系统一纳入CMDB管理,并建立配置管理流程制度;
- 由于消费场景不明确,造成消费价值与生产成本的失衡。
- B站数据生产成本建设并非很高,但是数据消费产品建设特别多,或是业务侧经常定制场景需求,CMDB需要定制介入开发,完成业务侧诉求。由此暴露出问题,CMDB有300多个OKACI,不便于维护。
场景导向:
- 局部数据标准化程度,准确性较高;
- 由于使用场景单一,总体消费价值不高,生产成本相对较高。
服务导向:
- 数据供给服务,支撑日常操作管控,如自动化、监控、作业流管理、运维分析等;
- 引入多样化的数据生产/消费手段,逐步平衡消费价值与生产成本。
价值导向:
- CMDB全面支撑服务及业务发展,如服务容量管理、可用性管理,成为IT运维的基石;
- 主动推动组织IT管理水平的提升。
7. CMDB模型如何构建
图片
- 定义数据类型:包括主机、交换机、应用、应用配置文件,配置人员接到需求后会对此进行调研。
- 定义数据核心属性:以主机为例,需要上报或采集IP、序列号、机房、云厂商等资源核心属性。
- 构建数据模型直接关系:梳理资源与资源之间的对应关系,如包含关系、依赖关系、运行关系等,以便后续制作资源拓扑。例如,应用使用一种数据类型,主机使用另一种数据类型,那么应用运行时会依赖主机,主机反过来可以组成应用。
- 消费场景确认:确认消费场景,就是确认数据用于哪些阶段。如果用于集群部署,可能需要到应用维度进行相关部署,或对应的运维作业。
- 确立数据规范:生命周期(从创建、生产到部署)是怎样的过程?数据状态变化后,平台如何感知?
综上所述,我们要以数据全生命周期为出发点,确定属性、理清关系、明确消费场景,借助自动化流程来保障数据的实时性与准确性。
1)模型关系定义
图片
2)CI关系DEMO举例
图片
3)CMDB落地实施框架
- 现状评估:当前是否有CMDB平台?这个平台建设程度如何?这部分数据质量如何?组织架构和技术架构如何?未来上线的过程中,需要用到的资源状态如何?
- 项目启动:启动时,需要定义接入资源的 CI模型和关系、后期消费场景、数据来源、CI干系方。
- 数据实例化:进行数据实例化检测时,会搭建测试环境,导入CI模型或实例化数据。
- 数据校验:在UG环境内,查看数据上报和实际产出的对比情况,确认数据质量能否达标。数据质量达标后,需要建设生产环境,以检测数据在生产环境的状态。
- 数据场景消费:数据落到生产环境后,需查看数据消费的场景,我们要与运营平台或SRE平台进行对接。
4)标准化先行
标准化先行是,落地之前的所有事项,都围绕标准化进行建设。其中包括一些强要求,比如规划要求、流程要求、组织要求和平台要求。
规范要求:
- 明确定义CMDB平台的作用,以及其他业务系统间的关系;
- 明确定义资源的管理过程、责任人和责任平台;
- 明确定义资源的基线标准以及偏差管理办法;
- 从服务业务场景的视角,规划和建设配置管理能力。
流程要求:
- 能够真实反应资源状况;
- 能够完整包含所有资源信息以及资源间关系;
- 全局唯一的权威数据源;
- 数据能够被用户及系统方便、及时、高效地获取。
组织要求:
- 成立统一的配置管理能力建设主体;
- 各个业务团队明确配置消费和完善的责任;
- 形成配置管理讨论、优化和需求收集的机制。
平台要求:
- 逐步实现配置自动发现、自动维护;
- 实时跟踪资源的状态及配置变化;
- 模型灵活,能够根据业务需求实时扩展和调整;
- 配置可视化,能够支持资源问题的分析和快速定位。
5)打造数据全生命周期闭环
首先,确定应用属性。应用的属性可能包括,应用的中英文名称、应用等级、唯一ID、归属业务和业务域等,属性内容主要取决于个人定义。定义应用后,应用可能与其他CI产生关系,需进一步梳理。
其次,明确应用的属性负责人。应用具有对应的负责人、研发和SRE等,针对应用构建、发布、变更,以及围绕用户进行的其他动作,我们都有对应流程,以保障应用的配置和变更审核。
最后,进行定时的采集任务,以保证应用最终的数据准确性。
6)推动配置的自动发现和更新
上图提到的“资源”还是传统意义上的资源,比如服务器资源。通过一定方式采集这些资源,最终上报到资源管理平台。
- 建设完善的配置采集能力,杜绝人工维护的场景;
- 自动发现资源和应用的配置信息;
- 对接流程、管理平台和设备,实时获取和更新配置状态;
- 建立资源配置和使用规范,通过CMDB进行合规检查;
- 推动实现配置消费闭环,通过消费反馈,自动维护数据可靠性。
以上是不会建数据资产体系的SRE,不是一名好运维的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如果您需要了解如何在Excel中使用具有多个条件的筛选功能,以下教程将指导您完成相应步骤,确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的,能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件,过滤数据并只显示符合条件的部分,让数据的管理变得更加高效。通过使用筛选功能,您可以快速找到目标数据,节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上,还可以根据多个条件进行筛选,帮助您更精准地定位所需信息。总的来说,Excel的筛选功能是一个非常实用的

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

本站3月7日消息,华为数据存储产品线总裁周跃峰博士日前出席MWC2024大会,专门展示了为温数据(WarmData)和冷数据(ColdData)设计的新一代OceanStorArctic磁电存储解决方案。华为数据存储产品线总裁周跃峰发布系列创新解决方案图源:华为本站附上华为官方新闻稿内容如下:该方案的成本比磁带低20%,功耗比硬盘低90%。根据国外科技媒体blocksandfiles报道,华为发言人还透露了关于该磁电存储解决方案的信息:华为的磁电磁盘(MED)是对磁存储介质的重大创新。第一代ME

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高
