目录
一、认识数据资产
1. 数据资产——企业IT价值
2. 数据资产——以运维场景为例
3. 数据资产——提升SRE价值
二、数据治理-方法论
1. 运维数据标准面临的问题
2. 建立运维数据治理模型
1)治理方法
2)治理过程
3)技术平台
3. 聚焦数据治理关键要素
三、CMDB平台建设
1. CMDB配置管理库
2. CMDB在ITIL时代的定位——元数据中心
3. CMBD在新时代的定位——以应用为中心
4. 以应用为中心的CMDB优势
5. 应用在运行期间与元数据中心的关系
6. CMDB建设的四大阶段
7. CMDB模型如何构建
1)模型关系定义
2)CI关系DEMO举例
3)CMDB落地实施框架
4)标准化先行
5)打造数据全生命周期闭环
6)推动配置的自动发现和更新
首页 运维 安全 不会建数据资产体系的SRE,不是一名好运维

不会建数据资产体系的SRE,不是一名好运维

Jul 22, 2023 pm 03:33 PM
数据 存储 sre

一、认识数据资产

1. 数据资产——企业IT价值

不会建数据资产体系的SRE,不是一名好运维图片

如图所示,未进行数据资产化建设时,数据可能呈现离散状态,数据生产和消费不统一,容易出现数据孤岛或零利益的情况。

建设数据资产化后,我们整合不同渠道数据,构造统一的数据源,或数据采集、存储、分析的流程链路,进而统一对应的数据结构、数据关系和消费出口。

运营数据经过采集、整编后,可服务于自身决策和业务流程。

2. 数据资产——以运维场景为例

不会建数据资产体系的SRE,不是一名好运维图片

上图以场景为例,介绍了数据资产的分类。要理解数据资产,需要理解数据资产的三个要素,即数据类型、数据形式和数据载体的对应关系。

  • 数据类型:运维特征的信息描述

业务指标层面,SRE关注交易耗时、交易订单量等信息;操作软件层面,SRE关注用户IP、接口调用情况等信息;基础设施层面,则关注对应的网络丢包率、内存占用或CPU使用率等信息;再深入,SRE会更加关注变更事件、发布试点或紧急变更的数量等数据。

  • 数据形式:数据储存于数据载体的形式

我们根据日志类、关系类及监控类等数据的不同表现形式,选择相应存储方式,比如关系型数据库、持续性数据库、消息队列或者日志文件等。

  • 数据载体:为运维数据提供存储的方式

3. 数据资产——提升SRE价值

不会建数据资产体系的SRE,不是一名好运维图片

根据获得的运维数据,首先建设一个资产化平台,例如后文提到的CMDB。利用这些平台,根据消费场景对大量的运维数据进行分解和管理,从而实现资产化。

另外,我们可以利用数字资产平台快速建立和改进与SRE稳定性相关的平台,如SLO和容量管理平台。一旦平台建立成功,我们将持续探索数据的潜在价值,并提升SRE所关注的稳定性。

二、数据治理-方法论

1. 运维数据标准面临的问题

不会建数据资产体系的SRE,不是一名好运维图片

运维数据标准化面临的问题,和大数据场景下数据质量的问题类似,主要包括数据孤岛、数据质量不高、数据不可知、数据服务不够、获取数据的开发耗时长等。

这些问题导致,数据消费场景难以快速迭代,无法满足业务需求。当人力资源、服务器资源、中间件资源等不足时,数据标准化建设将带来灾难性的影响。

运维数据天生是不标准的,比如,日志和日志监控的数据存储方式不同。而我们要在资源有限的情况下,进行最大化阐述,完成标准化。

针对近期业内比较火的概念,比如DataOps、AIOps等模型或场景,我们还缺少成熟、全面的数据建模方法论。

2. 建立运维数据治理模型

将运维数据提升为数据资产,需围绕治理方法、治理过程和技术平台三部分展开。

不会建数据资产体系的SRE,不是一名好运维图片

1)治理方法

  • 主数据管理:将SRE关注的数据进行定义和拆分。比如,主机和CLP等数据可作为主数据,我们对其进行生命周期管理。
  • 广义元数据管理:这些数据在闭环的上报流程中,进入到CMDB,就是广义元数据管理。以CMDB的模式为代表,向上层提供相应的数据支撑。
  • 关键治理链路:基于数据标准、治理质量和安全基线三个维度,梳理整个治理链路,即数据标准、质量目标、整个变更的基线要求。

2)治理过程

治理过程包括策略、建设与运营。整体建设方面,需要建设平台和工具,辅助自身运营。

3)技术平台

建立技术平台的主要目的是,通过工具支撑存量和增量数据。

3. 聚焦数据治理关键要素

数据治理的关键要素主要围绕四方面:组织保障、制度建设、项目落地和平台支撑。

  • 组织保障:为解决人力资源问题,我们明确成员角色和职责分工。由产品、运营和研发三种角色,组成数据治理专项团队。
  • 制度建设:需要建设标准化流程,并保证其有序落实,比如资源接入、资源开发、资源数据模型等规范。
  • 项目落地:开始整体的专项治理,数据治理是长效的过程,而非简单的运动式作战。如果数据质量严重不达标,我们会成立专项小组,采取运动式的作战方式,紧急修复数据质量的问题。但建立长效治理手段需根据数据产品,输出对应的治理方法论,并将其落实为产品化的平台手段,以此驱动数据责任方进行数据治理。
  • 平台支撑:平台建设主要围绕精细度量、执行治理效率等维度进行。

三、CMDB平台建设

1. CMDB配置管理库

不会建数据资产体系的SRE,不是一名好运维

CMDB配置管理处,主要围绕四方面进行建设:基础备案的技术台账、详细自然属性、自然关联关系、资源消费图谱。我们需要分层建立对应业务的模型,再通过自动化感知或标准化流程,实时推送配置动态。

对应配置也需要有对应的可视化界面,激发协作力量,最终,这些数据通过APP或相应离线场景,促进数据的消费场景。

2. CMDB在ITIL时代的定位——元数据中心

个人理解,CMDB是元数据中心。如上图所示,我们配置管理的数据库CMDB,会对组织、人员、决策、权限、流程等相关数据进行清洗或组装操作。

下层对接的平台很多,比如监控平台、邮件、短信、运维的数据库等。这些数据组装完毕后,会交由上层(类似服务管理层的平台)进行数据输出,完成资产管理、配置管理等一系列服务,并进行平台建设。

3. CMBD在新时代的定位——以应用为中心

不会建数据资产体系的SRE,不是一名好运维

以应用为中心,可以实现组织-项目-人员的关联关系,并与应用绑定。

应用运行过程中,使用对应资源(服务器资源、配置中心、可观测性指标等),再按照公司的组织架构形成从属关系,最终把组织架构视角引用到微服务视角,形成资源及其资源的关系——拓扑,其中包括应用拓扑、物理拓扑。

4. 以应用为中心的CMDB优势

不会建数据资产体系的SRE,不是一名好运维图片

5. 应用在运行期间与元数据中心的关系

不会建数据资产体系的SRE,不是一名好运维图片

上图所示为CMDB,它会将基础测试设施的元数据、Paas相关数据及运行数据,提供给上层(CI平台、CD平台、服务运行平台和服务运营平台)使用,图中所示的下层平台就形成服务资源支撑平台。

这样建设的好处是,为应用的全生命周期提供基本的数据支撑,包括应用创建、应用运行时态(构建、发布、扩容、计费)、回收应用下线后资源。

6. CMDB建设的四大阶段

不会建数据资产体系的SRE,不是一名好运维图片

上图是建设CMDB的四大阶段,我们目前处于从服务导向到价值导向的第四阶段。

部门导向:

  • 不论有无CMDB系统,实际都存在CMDB需求,以部门为单元维护配置信息;
  • 信息是孤立的、不及时的,无法保证完整性和正确性。

数据导向:

  • 各部门都关心的数据及相互关系统一纳入CMDB管理,并建立配置管理流程制度;
  • 由于消费场景不明确,造成消费价值与生产成本的失衡。
  • B站数据生产成本建设并非很高,但是数据消费产品建设特别多,或是业务侧经常定制场景需求,CMDB需要定制介入开发,完成业务侧诉求。由此暴露出问题,CMDB有300多个OKACI,不便于维护。

场景导向:

  • 局部数据标准化程度,准确性较高;
  • 由于使用场景单一,总体消费价值不高,生产成本相对较高。

服务导向:

  • 数据供给服务,支撑日常操作管控,如自动化、监控、作业流管理、运维分析等;
  • 引入多样化的数据生产/消费手段,逐步平衡消费价值与生产成本。

价值导向:

  • CMDB全面支撑服务及业务发展,如服务容量管理、可用性管理,成为IT运维的基石;
  • 主动推动组织IT管理水平的提升。

7. CMDB模型如何构建

不会建数据资产体系的SRE,不是一名好运维图片

  • 定义数据类型:包括主机、交换机、应用、应用配置文件,配置人员接到需求后会对此进行调研。
  • 定义数据核心属性:以主机为例,需要上报或采集IP、序列号、机房、云厂商等资源核心属性。
  • 构建数据模型直接关系:梳理资源与资源之间的对应关系,如包含关系、依赖关系、运行关系等,以便后续制作资源拓扑。例如,应用使用一种数据类型,主机使用另一种数据类型,那么应用运行时会依赖主机,主机反过来可以组成应用。
  • 消费场景确认:确认消费场景,就是确认数据用于哪些阶段。如果用于集群部署,可能需要到应用维度进行相关部署,或对应的运维作业。
  • 确立数据规范:生命周期(从创建、生产到部署)是怎样的过程?数据状态变化后,平台如何感知?

综上所述,我们要以数据全生命周期为出发点,确定属性、理清关系、明确消费场景,借助自动化流程来保障数据的实时性与准确性。

1)模型关系定义

不会建数据资产体系的SRE,不是一名好运维图片

2)CI关系DEMO举例

不会建数据资产体系的SRE,不是一名好运维图片

3)CMDB落地实施框架

  • 现状评估:当前是否有CMDB平台?这个平台建设程度如何?这部分数据质量如何?组织架构和技术架构如何?未来上线的过程中,需要用到的资源状态如何?
  • 项目启动:启动时,需要定义接入资源的 CI模型和关系、后期消费场景、数据来源、CI干系方。
  • 数据实例化:进行数据实例化检测时,会搭建测试环境,导入CI模型或实例化数据。
  • 数据校验:在UG环境内,查看数据上报和实际产出的对比情况,确认数据质量能否达标。数据质量达标后,需要建设生产环境,以检测数据在生产环境的状态。
  • 数据场景消费:数据落到生产环境后,需查看数据消费的场景,我们要与运营平台或SRE平台进行对接。

4)标准化先行

标准化先行是,落地之前的所有事项,都围绕标准化进行建设。其中包括一些强要求,比如规划要求、流程要求、组织要求和平台要求。

规范要求:

  • 明确定义CMDB平台的作用,以及其他业务系统间的关系;
  • 明确定义资源的管理过程、责任人和责任平台;
  • 明确定义资源的基线标准以及偏差管理办法;
  • 从服务业务场景的视角,规划和建设配置管理能力。

流程要求:

  • 能够真实反应资源状况;
  • 能够完整包含所有资源信息以及资源间关系;
  • 全局唯一的权威数据源;
  • 数据能够被用户及系统方便、及时、高效地获取。

组织要求:

  • 成立统一的配置管理能力建设主体;
  • 各个业务团队明确配置消费和完善的责任;
  • 形成配置管理讨论、优化和需求收集的机制。

平台要求:

  • 逐步实现配置自动发现、自动维护;
  • 实时跟踪资源的状态及配置变化;
  • 模型灵活,能够根据业务需求实时扩展和调整;
  • 配置可视化,能够支持资源问题的分析和快速定位。

5)打造数据全生命周期闭环

首先,确定应用属性。应用的属性可能包括,应用的中英文名称、应用等级、唯一ID、归属业务和业务域等,属性内容主要取决于个人定义。定义应用后,应用可能与其他CI产生关系,需进一步梳理。

其次,明确应用的属性负责人。应用具有对应的负责人、研发和SRE等,针对应用构建、发布、变更,以及围绕用户进行的其他动作,我们都有对应流程,以保障应用的配置和变更审核。

最后,进行定时的采集任务,以保证应用最终的数据准确性。

6)推动配置的自动发现和更新

上图提到的“资源”还是传统意义上的资源,比如服务器资源。通过一定方式采集这些资源,最终上报到资源管理平台。

  • 建设完善的配置采集能力,杜绝人工维护的场景;
  • 自动发现资源和应用的配置信息;
  • 对接流程、管理平台和设备,实时获取和更新配置状态;
  • 建立资源配置和使用规范,通过CMDB进行合规检查;
  • 推动实现配置消费闭环,通过消费反馈,自动维护数据可靠性。

以上是不会建数据资产体系的SRE,不是一名好运维的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用ddrescue在Linux上恢复数据 使用ddrescue在Linux上恢复数据 Mar 20, 2024 pm 01:37 PM

DDREASE是一种用于从文件或块设备(如硬盘、SSD、RAM磁盘、CD、DVD和USB存储设备)恢复数据的工具。它将数据从一个块设备复制到另一个块设备,留下损坏的数据块,只移动好的数据块。ddreasue是一种强大的恢复工具,完全自动化,因为它在恢复操作期间不需要任何干扰。此外,由于有了ddasue地图文件,它可以随时停止和恢复。DDREASE的其他主要功能如下:它不会覆盖恢复的数据,但会在迭代恢复的情况下填补空白。但是,如果指示工具显式执行此操作,则可以将其截断。将数据从多个文件或块恢复到单

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多条件使用Excel过滤功能 如何多条件使用Excel过滤功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多个条件的筛选功能,以下教程将指导您完成相应步骤,确保您可以有效地对数据进行筛选和排序。Excel的筛选功能是非常强大的,能够帮助您从大量数据中提取所需的信息。这个功能可以根据您设定的条件,过滤数据并只显示符合条件的部分,让数据的管理变得更加高效。通过使用筛选功能,您可以快速找到目标数据,节省了查找和整理数据的时间。这个功能不仅可以应用在简单的数据列表上,还可以根据多个条件进行筛选,帮助您更精准地定位所需信息。总的来说,Excel的筛选功能是一个非常实用的

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

华为明年将推创新 MED 存储产品:机架容量超过 10 PB,功耗低于 2 kW 华为明年将推创新 MED 存储产品:机架容量超过 10 PB,功耗低于 2 kW Mar 07, 2024 pm 10:43 PM

本站3月7日消息,华为数据存储产品线总裁周跃峰博士日前出席MWC2024大会,专门展示了为温数据(WarmData)和冷数据(ColdData)设计的新一代OceanStorArctic磁电存储解决方案。华为数据存储产品线总裁周跃峰发布系列创新解决方案图源:华为本站附上华为官方新闻稿内容如下:该方案的成本比磁带低20%,功耗比硬盘低90%。根据国外科技媒体blocksandfiles报道,华为发言人还透露了关于该磁电存储解决方案的信息:华为的磁电磁盘(MED)是对磁存储介质的重大创新。第一代ME

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

See all articles