首页 运维 安全 云原生稳定性价值被低估?看头部金融企业稳定性保障法则!

云原生稳定性价值被低估?看头部金融企业稳定性保障法则!

Jul 04, 2023 am 08:34 AM
云原生 系统稳定性

云计算、大数据、人工智能、区块链等技术浪潮赋予金融科技创新源源不断的生命力,但与此同时,以数字经济为代表的新型经济形态也对传统金融业态和既有底层技术带来深刻变革和巨大挑战。

在国际形势复杂化的背景下,国家对安全可靠、自主可控技术提出了更高的要求。当前迫切需要的工作是加强金融行业信息系统的自主研发能力,减少对商业产品的依赖。

由于金融行业涉及民生,业务一旦出现问题,就会对整个社会舆论造成严重影响,因此,金融行业的系统稳定性保障尤为重要。然而,走向数字化的金融企业在业务方面存在不可预测、不可控、复杂性高等问题,这就给系统稳定性保障带来不小挑战。

那么,金融企业如何规划系统稳定性治理工作?如何利用云原生架构的特性和优势,来保障业务系统稳定性?近日,51CTO 采访了网易数帆云原生解决方案专家朱剑峰,携国有大行长期实践经验,为金融行业的系统稳定性建设献策支招。

金融行业云原生升级挑战多

随着近年来同业竞争加剧,各大金融机构纷纷追求金融服务个性化、场景化,欲打造开放金融,加之监管要求需要实现 IT 自主可控目标,金融企业从大单体总线架构进一步向微服务、云原生架构演进。

在近日举办的 WOT 全球技术创新大会上,来自银行、证券、保险等领域的多位科技部门负责人表示,云原生架构的落地不是一蹴而就的,需要在架构演进过程中,不断完善相关的能力与规范,形成企业的组织文化与技术体系。企业需要全面梳理、逐步演进,从周边到核心,先创新再传统。映射到金融企业,就是先从偏向互联网业务方向的敏态业务开始进行微服务拆分和云原生改造,进而再渗透到核心系统的稳态业务。

随着更多企业开始迁移到云原生架构,云原生的稳定性保障也越来越受到关注。企业在云原生稳定性保障方面也遇到了不小挑战。朱剑峰表示,金融企业在云原生稳定性保障方面主要有两大挑战。一类集中在系统韧性方面,在外部环境下,访问流量的变化会导致系统过载,应用高可用设计不达标,都会造成系统韧性不足;另一类在系统可观测性方面,由于系统可观测性不足,导致运维人员无法第一时间发现多样化的云服务风险故障,例如针对生产环境的操作变更(人为误操作、变更失败),代码编写的缺陷(代码质量、程序逻辑、应用架构等故障),以及业务依赖的平台硬件故障、网络故障等情况,无法快速发现并定位问题,最终造成业务损失。

所以,金融企业业务系统的关键演进方向是云原生技术底座。金融企业需要将云原⽣的特性应⽤在业务场景方面,增强传统云服务的观测性、应⽤韧性、⾼可⽤性、故障⾃愈等能⼒,从而消除不确定性,为业务系统带来额外保障。

云原生提供的稳定性价值被低估,国有大行已尝鲜

众所周知,传统运行环境偏向手工运维,更多依赖个人经验,一般很难做到标准化。而云原生架构的本质区别在于容器和容器编排调度的能力,容器化带来了运行应用的标准化环境,包括云原生环境下的监控告警、异常事件等数据也是以标准化的格式存放,再结合 K8s 技术提供的故障自愈以及实现自动化的运维技术,采用云原生技术建设的风险预测平台天然就拥有较为智能、自动化、标准的稳定性保障能力,也可以为传统虚拟机环境上的业务应用提供更为有效的工具平台。

然而,业界对于云原生的期待大多还聚焦于如何将业务迁移到云原生架构上。但这一迁移过程成本相对比较高,周期也较长,金融行业创新意愿强烈的头部客户固然已经在行动,尤其是一些技术实力强劲的国有大行,以基于云原生的稳定性保障为后盾,将分布式架构转型和核心业务小机下移的规划相结合推进落地,而更多技术储备不足的企业,往往处于观望状态。综合分析,朱剑峰认为,基于云原生架构能够额外提供的可观测性、故障自愈能力是被低估的。

朱剑峰表示,像容器、K8s、微服务平台以及稳定性平台属于工具类平台,是 PaaS 的云原生底座,这些技术工具平台拥有云原生的能力和优势,相比传统虚拟机和物理机可以进一步实现智能化能力,这也是大家没有太多感知到的。所以,在业务云原生化之前,企业不妨考虑将技术工具类平台迁移到云原生架构上,通过稳定性保障技术来反向为传统架构下的业务(包括稳态业务)进行赋能。事实上,与网易数帆合作的部分金融客户,在某些业务上也谨慎地采用了这样的策略。

系统稳定性保障三部曲事前降发生和事中降影响并重

墨菲定律指出,“凡是可能出错的事有很大概率会出错”,指的是任何一个事件,只要具有大于零的概率,就不能够假设它不会发生。这个定律的要义是,即使某件事情发生的概率很低,也不能轻视它,应该采取预防措施来防止产生不良影响。

那么,对于业务系统的稳定性保障,应该如何建设和完善呢?朱剑峰按照事件生命周期,将增强业务系统的稳定性风险保障能力的建设路径梳理为三部曲:事前提供风险预测,降低故障发生概率;事中通过故障感知自动根因分析快速止损,降低故障影响;事后完善故障改进追踪能力,实现稳定性建设目标。

事前阶段,通过风险预见和中间件巡检,结合全链路压测、混沌工程、引流回放在测试环境事先发现系统存在的可能风险,给出分析报告;同时,在生产环境定时巡检,及时发现生产环境可能存在的风险问题。事中阶段,通过立体化监控收集系统的深度指标,标准化数据让根因分析及时发现故障,并定位根因,给出分析报告,做到1分钟发现问题,5分钟定位问题。复盘过程中的事后阶段的主要目的是总结经验,并将事前和事中的一些经验归纳为专家规则库。

云原生稳定性价值被低估?看头部金融企业稳定性保障法则!

然而,如果企业的 IT 团队能力有限,在资金投入也受限的情况下,应该注重事前、事中还是事后呢?朱剑峰表示,每个企业的情况不一样,在企业没有充足的预算和人力的情况下,应该着重在事前降发生和事中降影响两个方面。事前通过持续巡检、⻛险评估、故障演练等将异常⻛险左移,引⼊算法实现事前⻛险预测能⼒,降低潜在的⻛险;事中通过⽴体化监控,在故障发⽣后能快速定位根因,根据故障特征模版采取限流兜底或⾃愈策略,把影响降⾄最低。

云原生稳定性价值被低估?看头部金融企业稳定性保障法则!

沉淀专家经验降低稳定性保障门槛

据了解,针对企业云原生稳定性保障方面,网易数帆提供事件生命周期全栈能力,包括故障演练、服务治理、风险预见、立体化监控、根因分析、故障自愈、规则专家库等不同模块。

那么,网易数帆的核心竞争力有哪些呢?朱剑峰告诉 51CTO,网易数帆云原生稳定性保障平台的核心价值在于专家经验的沉淀,这也是企业数字资产的一部分。一方面,网易在集团业务中涉及大规模互联网业务,沉淀了非常多的专业的专家经验,可以覆盖 70%-80% 的互联网场景,并可复用于金融等行业敏态业务支撑。另一方面,网易数帆还在和包括国有大行在内的多家头部金融企业合作共建金融行业专家库,不断完善金融场景下的专家经验,为金融敏态业务提供稳定性保障。“基于这套专家经验库,网易数帆通过将专家经验和故障库形成代码,让机器通过算法降低对系统保障对‘人’的经验的依赖,让稳定性保障的门槛变低。”

云原生稳定性价值被低估?看头部金融企业稳定性保障法则!

专家经验能够在稳定性保障场景里被有效使用,其实是通过决策来实现的。一方面是通过规则引擎直接运行专家经验,另一方面是通过 AIGC、AIOps 等技术,帮助企业进行辅助性决策,从而不断提升诊断建议的科学性和有效性。这也是网易数帆在稳定性保障方面的下一步举措,并且正在内部验证过程中。

提供转型利器保障金融系统稳定性

在服务金融企业技术架构转型过程中,网易数帆对自己的定位也相对比较清晰。一是通过与行业头部金融企业合作共建,打造经过大规模实践优化的具备自主可控、稳定可靠、技术领先,以及持续演进的技术底座产品,为金融企业提供转型的利器。二是秉持开源、开放、无绑定的原则,提供轻量、解耦的模块化工具产品,配合企业已有的 IT 规划小步快跑,逐渐落地数字化转型。

某金融企业经常出现缓存不可用的情况,间接导致业务不可用。而这家企业的自动化程度较低、观测性也较弱,无法发现问题出现的根本原因。接入网易数帆云原生稳定性保障平台后,该企业通过稳定性巡检的方式发现底层存储抖动,精确定位到 SSD 写穿掉盘的故障,从而及时发现问题,告知存储团队排查处理。

此外,底层存储的抖动,还影响到对应虚拟机和物理机运行的中间件,网易数帆基于云原生实践中间件品类设计配套的异地多活及故障自愈能力,如果出现异常抖动的情况,可以通过这项能力及时将流量迁移到稳定的集群,从而规避风险。朱剑峰强调,大型企业最核心的诉求就是出现问题后能够快速止损,因此底层存储出现抖动,如果排查问题并恢复对应的存储,整个周期是非常长的。但是通过稳定性巡检方式快速发现问题,并且自动解决事故,是事中快速止损的一种方法。

结语

金融行业一直是网易数帆持续投入与推动落地实践的重要领域。融合网易互联网技术与金融行业服务经验,通过提供微服务治理、API 网关、容器平台、分布式缓存、消息、搜索等云原生 PaaS 中间件及相关云原生分布式产品全栈能力,网易数帆已经帮助两家国有四大行、十余家中国金融百强企业客户向云原生分布式架构转型升级,建设API资产全生命周期管理,打造满足金融业务特性的企业级技术底座,帮助金融企业应对复杂业务场景的挑战,加速金融业务创新。在云原生稳定性保障领域,未来,网易数帆还将与金融企业持续合作,不断完善 DBASRE 老专家经验,从而提升诊断建议的科学性及有效性,并结合智能决策,帮助金融企业满足业务稳定性增长需求。

以上是云原生稳定性价值被低估?看头部金融企业稳定性保障法则!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

从零开始,使用Docker和Spring Boot构建云原生应用 从零开始,使用Docker和Spring Boot构建云原生应用 Oct 20, 2023 pm 02:16 PM

从零开始,使用Docker和SpringBoot构建云原生应用摘要:云原生应用已经成为现代软件开发的趋势,通过使用容器技术和微服务架构,可以实现快速部署和伸缩,提高应用的可靠性和可维护性。本文将介绍如何使用Docker和SpringBoot构建云原生应用,并提供具体的代码示例。一、背景介绍云原生应用(CloudNativeApplication)是指

问题排查太烦心,试试GPT的超能力 问题排查太烦心,试试GPT的超能力 Mar 14, 2024 pm 07:52 PM

使用Kubernetes时难免会遇到集群中的问题,需要进行调试和修复,以确保Pod和服务能够正常运行。无论你是初学者还是处理复杂环境的专家,调试集群内的进程并不总是易事,可能会变得耗时且繁琐。在Kubernetes中,诊断问题的关键是了解各个组件之间的关系,以及它们如何相互作用。日志记录和监控工具是解决问题的关键,可以帮助你快速定位并解决故障。另外,深入了解Kubernetes资源配置和调度机制也是解决问题的重要一环。当面对问题时,首先要确保你的集群和应用程序的配置是正确的。随后,通过查看日志、

云原生稳定性价值被低估?看头部金融企业稳定性保障法则! 云原生稳定性价值被低估?看头部金融企业稳定性保障法则! Jul 04, 2023 am 08:34 AM

云计算、大数据、人工智能、区块链等技术浪潮赋予金融科技创新源源不断的生命力,但与此同时,以数字经济为代表的新型经济形态也对传统金融业态和既有底层技术带来深刻变革和巨大挑战。在国际形势复杂化的背景下,国家对安全可靠、自主可控技术提出了更高的要求。金融行业信息系统具备自主研发能力,降低对商业产品的依赖成为当前刻不容缓的工作。由于金融行业涉及民生,业务一旦出现问题,就会对整个社会舆论造成严重影响,因此,金融行业的系统稳定性保障尤为重要。然而,走向数字化的金融企业在业务方面存在不可预测、不可控、复杂性高

Golang在云原生架构中的作用和实践 Golang在云原生架构中的作用和实践 Jun 02, 2024 pm 08:42 PM

在云原生架构中,Go因其并发性、跨平台特性和易用性而受到青睐。它支持轻松构建高并发应用、在多种平台上部署,并拥有丰富的网络支持。一个使用Go构建的云原生微服务可以创建路由,定义端点,处理请求并返回响应。因此,Go非常适合云原生开发,可以优化微服务和应用的性能和可扩展性。

如何使用C++构建云原生的Web应用程序? 如何使用C++构建云原生的Web应用程序? Jun 01, 2024 pm 06:22 PM

使用C++构建云原生Web应用程序涉及以下步骤:创建一个新项目,添加必要的库。编写业务逻辑并创建HTTP路由。使用Dockerfile创建容器镜像。将镜像构建并推送到注册表。在Kubernetes上部署应用程序。

解决win7资源管理器崩溃的办法 解决win7资源管理器崩溃的办法 Jul 14, 2023 pm 11:13 PM

win7资源管理器崩溃怎么办?计算机误操作或其他各种情况都可能导致这种情况,如果总是崩溃,将严重影响我们计算机系统的正常使用。今日小编就为大家分享一下win7资源管理器崩溃如何解决的细节。首先按下win+r键打开运行窗口,输入“regedit”,点击确定。二、进入后依次展开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\Winlogon,找到并打开Winlogon文件。3.在“Winlogon”文件中新建“DWORD(

对比SpringBoot和SpringCloud的架构层面的异同 对比SpringBoot和SpringCloud的架构层面的异同 Jan 24, 2024 am 09:39 AM

从架构层面看SpringCloud和SpringBoot的异同比较SpringCloud和SpringBoot是目前Java领域最热门的微服务开发框架,它们都是由SpringFramework衍生而来。虽然它们都是用于构建企业级应用程序,但在架构层面上有一些不同之处。本文将从架构层面上比较SpringCloud和SpringBoot,并通过具体

如何让云原生运维化繁为简 如何让云原生运维化繁为简 Apr 08, 2023 pm 08:31 PM

云计算带来了集约化、效率、弹性与业务敏捷的同时,对云上运维提出了前所未有的挑战。如何面对新技术趋势的挑战,构建面向云时代的智能监测平台,让云上应用获得更好的保障,是如今摆在每一个企业面前的一道难题。在日前的【T·Talk】系列活动第八期中,51CTO内容中心特别邀请到了乘云产品VP张怀鹏做客直播间,为大家分享打造云时代数字化观测利器的经验与思考。【T·Talk】也将本期精彩内容进行了整理,望诸君能够有所收获:​数字化转型浪潮下的数字化运营痛点数字化转型与数字经济建设是当前时代的大趋势,数字化转型

See all articles