刘昊-B站轻量级容灾演练体系构建与业务实践.pdf

刘昊-B站轻量级容灾演练体系构建与业务实践.pdf

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

B站轻量级容灾演练体系构建

与业务实践

演讲人:刘昊

个人介绍

刘昊

⚫哔哩哔哩基础架构部平台工程负责人

⚫从业十余年,专注于运维效能、质量运营等领域。

⚫参与B站从百万级到亿级用户规模的技术演进,主导运维技术体系、中间件

体系与稳定性体系的设计和落地

⚫目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更

防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、

提升人员效率和降低资产成本。

目录

01新形势下稳定性挑战02轻量级容灾演练体系

03业务场景演练实践04总结展望

01

新形势下稳定性挑战

行业面临的稳定性挑战

业务的复杂性和多样性不断提升基础设施的故障和隐患不断增多

随着信息化不断深透进各行各业,软件架构也在不断演进。从最随着基础设施类的故障不断提升,对整个软件的基础架构和

初的单节点、单线程向分布式、微服务,从网站黄页导航/移动业务架构的容灾建设带来了很大挑战。IT系统的各类容灾建

互联网再到产业互联网/AI大模型。软件的复杂度和多样性不断设,像服务高可用/服务多活/同城双活等,将面临真实大考。

快速攀升,软件系统逐步成为稳定性事故的重灾区。

机房火灾光缆被剪断

B站面临的稳定性挑战

热搜体质,小故障,大流量持续性的多活建设,结果有效性急需验收

第三方故障

•某商业CDN故障,引起回源级联故障,导致图片用户访问APPWEB多屏灾备、降级

服务不可用,全链路图片容灾方案欠缺,多业务

受损DCDNDCDN三方

CDN

性能、架构

接入层SLBSLBSLB容灾、多活

•IDC网络设备故障导致专线异常,业务未多活或

文档评论(0)

150****8957 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档