韩奇祺-脱敏GOPS2024上海站V2.pdf

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SLO在小红书的探索与实践

姓名:韩奇祺

个人简介

韩奇祺

公司职位

小红书/可观测技术部

负责告警、大盘、服务监控相关研发工作

目前从0-1负责SLO平台能力建设

GOPS全球运维大会暨研运数智化技术峰会2024·上海站

为什么引入SLO

运营建设思路

目录平台能力及最佳实践

结果和展望

为什么引入SLO

01

稳定性现状:故障

故障

•故障数持续减少,但速度放缓,故障等级向低危转移,但极端故障风险依然存在

•某些场景故障收敛,有些实现了阶段性清零

•某些场景近期故障频发,主要来源于代码bug与系统设计历史债务问题,

加之迭代加快带来的质量与稳定性风险

-缺少非故障类型的稳定性目标牵引,缺少一种预算机制,去平衡功能迭代和稳定性之间的关系

MTTR故障数风险

•体现了针对故障的应急协同能力•结果,不可控因素多,受变更、容量等•风险识别来自故障驱动居多

•架构的容错和弹性因素影响•一些稳定性风险依赖人工梳理

•能代表问题发生与不发生,不能提现业

务质量

GOPS全球运维大会暨研运数智化技术峰会2024·上海站

稳定性现状:架构治理

架构治理

技术架构和链路随着业务的扩张成几何倍数变的复杂,上下游依赖之间稳定性改进困难。

业务之间需要明确好服务提供方和用户双方之间的责任和合作方式,握手和建立约束,给到上游一

个明确可量化的能力表现预期,比如提供的服务质量需要保证99.99%

MTTR故障数

GOPS全球运维大会暨研运数智化技术峰会2024·上海站

稳定性现状:服务劣化

服务劣化

服务质量开始劣化且劣化程度没有达到告警阈值的时,很难被感知到。在这种情况下提升告警阈值

又会导致告警泛滥。

告警像是一个重度问题的急诊,服务劣化现象更像是亚健康的状态,是长周期的问题,基于影响面

积去体现劣化程度,很难被告警发现。

SLO能够累记一定时间窗口的错误,计算的是累积值。

MTTR故障数

GOPS全球运维大会暨研运数智化技术峰会2024·上海站

为什么引入SLO

运作机制

GOPS全球运维大会暨研运数智化技术峰会2024·上海站

什么是SLO

SLISLO

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档