创新智能分析能力的AI驱动SLS技术

王林
发布: 2023-12-19 20:34:12
转载
1274 人浏览过

AIOps 为运维工作带来革命式变革

随着云计算技术的不断升级,承载业务的IT基础设施规模不断扩大,各个应用之间的链路关系变得越来越复杂,同时产生了大量的日志数据。对于日志数据的采集、存储和分析处理方式,成为衡量企业系统数字化程度的重要标志。传统的IT运维方案在面对这些挑战时也面临着巨大的困境。对于DevOps来说,解决一个问题可能需要花费数小时的时间来查找、对比和分析,需要查看各种日志、监控数据和其他相关信息,以找出问题的根源。而对于SecOps来说,在海量的数据中进行深度分析意味着他们需要快速挖掘根本原因,从数百TB的数据中寻找异常,这个过程非常耗时且繁琐,可能需要大量的人力和资源投入

为了解决上述问题,需要引入新一代的AIOps解决方案。这种解决方案通过数据融合分析实现自动化和全栈的数据全链路可观测,提供更易于使用的报表和诊断规则,使得所见即所得。通过AI技术的支持,能够更高效地自动检测异常并快速定位根因。AIOps已经为运维工作带来了革命性的变革

AI Powered SLS 智能分析能力创新

日志服务 SLS 如何提升效率?

SLS 自动化全栈实现数据采集

  • 云基础设施可观测 Alibaba Cloud Lens:提供跨账号、跨区域、统一的云产品运维数据采集,支持自动采集计量、指标、访问日志等数据
  • 应用可观测 全栈可观测:全栈数据采集、客户端到服务端、基础设施到应用,数据关联分析、跨多种数据源、完备分析语法、丰富上下文支持
  • 安全审计 日志审计:50+ 数据源自动接入,安全态势可视化图表,内置 100+安全规则告警监控,提供多账号管理、跨账号、跨地域采集的中心化存储

SLS提供了即开即用的报表和诊断规则

  • CloudLens 内置规则:全面的云产品辅助运维分析,支持消费组/API/Grafana 等灵活订阅的数据平台
  • 全栈可观测内置告警:实时告警、事件管理系统、告警收敛,可定制仪表盘、内置异常检测和根因分析
  • Security 内置规则:满足合规、等保、网安法、GDPR 等标准,内置近百个安全合规监控规则

SLS推出了开放兼容的数据生态

  • SLS 提供开放兼容的数据生态,兼容多种数据源,统一采集。
  • SLS 兼容开源、高性价比的可观测存储分析平台。内置 Serverless 分析能力,兼容开源引擎与工具,兼容 Elasticsearch、Kafka、Prometheus、CK,99% 的情况下无缝迁移。
  • SLS 是离线数仓、数据湖入湖的最佳方案,和三方 SIEM 对接提供 SecOps 云上安全审计,并支持多种告警通知渠道。

AI Powered SLS 智能分析能力创新

IT 运维场景的基础模型创新

阿里云日志服务(SLS)致力于构建高效、可观测的运维解决方案。凭借多年的运维经验和大语言模型的支持,SLS不断提升在这一领域的竞争力。最近,SLS发布了智能运维基础模型,覆盖了日志、追踪、指标等可观测数据场景,支持异常检测、文本分词标注、追踪请求的高延时分析等功能。该模型提供了即插即用的异常检测、自动标注、分类和根因分析等能力。在生产环境中,它能够在数千个请求内以秒级定位到根因,并且准确率超过95%

此外,SLS 提供人工辅助微调的功能。在日志服务平台上,原生支持对 Log、Metric、Trace 进行标注反馈,让客户可以在使用过程中快速进行标注和修正,以积累符合特定场景的数据集。通过平台的标注能力,客户可以从零开始积累高质量的运维数据标签,为未来的根因诊断模型训练提供无限可能。未来,客户可以针对自己标注的数据在特定领域的模型上进行微调,并快速部署,创建私有的模型服务。该功能支持自动标注和人工辅助微调,同时支持人工标注结果的修正,模型根据人工反馈自动微调,以提高场景准确率

SLS通过辅助生成查询语句,成为重要的智能助手。发布阿里云CloudLens Copilot大模型助力云设施运维与运营。采用基于大语言模型的NL2Query技术,精准理解用户的查询意图,提高查询结果准确性;无需理解复杂的SQL语言和查询语法,可准确将自然语言查询转化为SQL查询和可视化图表;建立场景化的知识图谱,持续学习,不断优化模型调整和知识库更新,不断改进问题解答的准确性和效果

AI Powered SLS 智能分析能力创新

场景示例:智能异常分析检测与根因分析

我们针对游戏服务系统中调用和依赖关系复杂的场景提出了一种解决方案。我们利用服务中的Trace数据自动生成拓扑图,并进行高延时分析、高错误率分析、系统热点和瓶颈等方面的分析和诊断,以缩短问题处理时间并优化系统的延时

通过自动生成的拓扑图,我们可以快速定位海量 Trace 数据中的异常根因和性能瓶颈,无需人工干预。这种方法可以提高大规模分布式系统的异常定位效率,并实现数千请求每秒级别的根因定位。在生产环境中,该方案的准确率可达到95%

AI Powered SLS 智能分析能力创新

智能运维基础模型

传统的AIOps技术,例如异常检测和根因定位,存在以下两个主要问题:

  • AIOps 算法涉及到很多阈值、规则的配置,在不同业务场景这些配置项都需要反复测试选择。因此算法的维护成本比较高,很难随着业务场景的变化而演进
  • AIOps 模型的构建一般使用私域数据,往往存在数据数量较少、质量较差的问题。这导致了模型的泛化性、迁移能力较差,在不同的业务场景往往需要重新构建

针对以上问题,SLS 现在推出了智能运维通用模型能力。我们分别开发了用于分析日志、追踪信息和指标数据的基础模型,并提供了开箱即用的异常检测算法、根因分析和自动标记等功能。我们的模型能够在数千个请求中以秒级的速度定位到根因,并且在生产环境中的准确率超过95%。针对不同的数据类型,我们选择了不同的任务来进行预训练

  • Metric 基础模型:可准备识别时序异常检测、时序预测、形态检测等,辅助做好更加智能的巡检
  • Log 基础模型:针对日志场景,提供丰富的 LogNER 的能力,辅助抽取带有语义信息的日志模板)
  • Trace 基础模型:支持 OT 协议的 Trace 数据的高延时诊断

具有特定领域基础模型的产品,可以立即使用,无需繁琐的部署流程,只需一键即可开始使用,从而大大降低了客户使用日志服务基础功能的门槛。客户不需要在特定场景中微调模型,只需直接使用日志服务提供的通用基础模型,就可以获得良好的效果

Alibaba Cloud Lens Copilot 大模型辅助基础设施运维与运营

阿里巴巴云智能Lens Copilot通过强大的模型为云设施运维与运营提供支持,有效解决了用户在不熟悉SLS语法、缺乏业务领域知识和高质量问答语料等方面所面临的问题

  • 准确识别意图:使用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性
  • 所见即所得的结果与报表:无需理解复杂的 SQL 语言和查询语法,准确将自然语言查询转化为 SQL 查询和可视化图表
  • 自动学习资产数据:融合 Alibaba Cloud Lens 中的资产数据与知识图谱,持续学习资产数据、自动优化模型调整

总结

经过 AI 能力的提升,SLS 的智能分析能力将得到全面提升。 SLS 的目标是利用数据和算法来支持 AIOps 的创新,并具备以下优势:

  • 易于使用

客户可以在日志服务控制台上,轻松使用指标异常检测、日志文字智能分词、Trace 链路高延迟诊断等功能,让客户体验到模型无处不在

特定领域的基础模型已经事先准备好,可以直接使用,省去了繁琐的部署流程,只需点击一次即可启动

本次推出的特定领域大语言模型,能够显着降低客户使用日志服务基础能力的门槛,使大语言模型能够辅助生成查询语句,成为重要的智能助手

  • 灵活性

1. 客户无需在特定场景下对模型进行微调,只需使用日志服务提供的通用基础模型即可获得良好的效果

在日志服务平台上,原生支持对 Log、Metric、Trace 的标注反馈能力,让客户在使用的过程中可以快速进行标注,积累符合特定场景的数据集

  • 可扩展性

借助阿里云强大的计算能力支持,日志服务内置提供的基础通用模型可以实现快速的扩容和服务迁移

未来,客户将有能力在特定领域的模型上进行微调,并且可以并行快速部署,以创建私有的模型服务

原文链接:https://developer.aliyun.com/article/1396326?utm_content=g_1000386345

请勿复制或转载本文,本文为阿里云的原创内容,未经允许不得转载

以上是创新智能分析能力的AI驱动SLS技术的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:sohu.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板