阿里云大数据计算平台基于 AIOps 的根因定位实践.pptx

阿里云大数据计算平台基于 AIOps 的根因定位实践.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

阿里云大数据计算平台基于AIOps的根因定位实践阿里云算法专家/张颖莹

演讲大纲阿里云大数据运维背景010203大数据运维中的根因定位阿里云根因定位实践0405根因定位背后的算法和工程链路总结和展望

阿里云大数据运维背景01

阿里灵杰

阿里云大数据计算平台阿里云ABM运维中台大数据计算平台典型业务场景大数据计算服务MaxCompute实时计算Flink版实时数仓Hologres……

智能运维AIOps大规模架构复杂核心业务效率稳定性成本AIOps海量多源异构数据实时性

大数据运维中的根因定位02

根因定位业务价值问题发生异常发现根因定位问题恢复MeanTimeToResolve(MTTR)缩短MTTR,保障SLA(ServiceLevelAgreement)

根因定位问题定义当我们在谈论根因定位时,我们究竟在谈论什么?维度下钻根因分类因果推断定位结果根因维度根因类别根因节点/路径核心挑战庞大搜索空间特征构建因果图构建和推断

根因定位的普遍性难点数据来源和类型复杂指标间存在复杂的关联关系性能和实时性要求高标注样本数量少全新的根因类型或表现形式专家经验与模型能力的结合

阿里云根因定位实践03

案例1:多维数据下钻分析服务整体流量指标地域用户集群应用机房应用Q:哪些维度导致了服务整体流量下跌?具体是哪几个用户/机房?

难点解决方案显著度(自身变化)惊喜度(子节点分布)贡献度(总体占比)面对庞大的搜索空间如何提升性能如何量化一个维度是根因的可能性自动选择最优的搜索方向快速剪枝高效的数据结构(BitMap)案例1:DrillUp下钻分析框架

案例2:计算平台故障根因类型定位模块FlinkMaxComputeHologres根因类型资源调度YARNNMdecommissionedFuximasterfailASIserveroverloadYARNRMswitchFuxitobofailASInodefailYARNresourcepreemptionFuxiapiserveroverloadASIapiserveroverload………存储HDFSserviceunavailablepanguserverunavailableHDFSusageoverlimitpangumasterfailoverHDFScallqueuefullpangumasterqueuesizefull…panguserverwriteslowpanguchunkserverfailover…机器oomiohangdiskfailurecpuusageoverlimitmachinebreakdown…网络martnetexceptionqosexceptionlvsexception…其他Upstream-TTTunnelPOPUpstream-SLSFrontendDNS………Q:故障发生时是平台哪个模块导致的?具体是哪种类型的原因?

案例2:计算平台故障根因类型定位特征构建指标事件日志拓扑异常检测日志聚类log实时在线聚类指标构建NLP层次聚类日志类别维度

案例2:计算平台故障根因类型定位样本积累故障演练数据增强FlinkMaxComputeHologres

案例2:计算平台故障根因类型定位定位模型事件指标日志实体关系拓扑专家定义的根因类型值为0/1的时间序列指标层根因层模块1模块2模块3…类型1 类型2 类型3 …基于知识的层次贝叶斯网络(KHBN)指标层因果关系构建PCAlgorithm根因分类条件概率i ti i k 1type?=argmax Pt|m,s ,s ,j k 12…,sPm|s ,s ,j2…,s

案例2:CloudRCA根因定位框架预处理向量化(Word2Vec)实时聚类(HierarchicalClustering)异常检测模板提取(AFT-tree)基于知识的层次贝叶斯网络(KHBN)根因推断日志聚类特征数据(标准化0/1时间序列)带标注样本数据故障演练周期识别和分解PMDB指标事件中心事件日志存储系统日志[1]ZhangY,GuanZ,QianH,etal.CloudRCA:ARootCauseAnalysisFrameworkforCloudComputingPlatforms[C]//Proceedingsofthe30thACMInternationalConferenceonInformationKnowledgeManagement.2021:4373-4382

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档