- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
B站轻量级容灾演练体系构建
与业务实践
演讲人:刘昊
个人介绍
刘昊
⚫哔哩哔哩基础架构部平台工程负责人
⚫从业十余年,专注于运维效能、质量运营等领域。
⚫参与B站从百万级到亿级用户规模的技术演进,主导运维技术体系、中间件
体系与稳定性体系的设计和落地
⚫目前主要负责SRE体系化建设和人员转型培训,设计落地应急响应、变更
防控、蓝军演练、运维数据资产和资产成本等系统,持续优化业务稳定性、
提升人员效率和降低资产成本。
目录
01新形势下稳定性挑战02轻量级容灾演练体系
03业务场景演练实践04总结展望
01
新形势下稳定性挑战
行业面临的稳定性挑战
业务的复杂性和多样性不断提升基础设施的故障和隐患不断增多
随着信息化不断深透进各行各业,软件架构也在不断演进。从最随着基础设施类的故障不断提升,对整个软件的基础架构和
初的单节点、单线程向分布式、微服务,从网站黄页导航/移动业务架构的容灾建设带来了很大挑战。IT系统的各类容灾建
互联网再到产业互联网/AI大模型。软件的复杂度和多样性不断设,像服务高可用/服务多活/同城双活等,将面临真实大考。
快速攀升,软件系统逐步成为稳定性事故的重灾区。
机房火灾光缆被剪断
B站面临的稳定性挑战
热搜体质,小故障,大流量持续性的多活建设,结果有效性急需验收
第三方故障
•某商业CDN故障,引起回源级联故障,导致图片用户访问APPWEB多屏灾备、降级
服务不可用,全链路图片容灾方案欠缺,多业务
受损DCDNDCDN三方
CDN
性能、架构
接入层SLBSLBSLB容灾、多活
•IDC网络设备故障导致专线异常,业务未多活或
您可能关注的文档
- 付俊伟-AIGC 浪潮下 WebNN 的演进与实践.pdf
- 傅奎-安全大模型的最后一公里.pdf
- 何蔚然-Mooncake 分离式推理架构创新与实践.pdf
- 何子波-蚂蚁集团配置即代码的规模化实践之路.pdf
- 胡立平-全球视野下的合规之道:携程海外数据安全管理实践.pdf
- 黄闻欣-AI 重塑技术流程:下半场的破局之道.pdf
- 姬军翔-Servless助力大语言模型工程化实践.pdf
- 贾安亚-大模型生产力工具的思考与实践.pdf
- 姜慧强-长文本 LLMs 推理优化:动态稀疏性算法的应用实践.pdf
- 蒋志远-淘宝在 Vision Pro 上的架构实践.pdf
- GOPS2024上海站-牛主任-1018(脱敏).pdf
- 苏震巍-协同研发的流程重塑:使用 AgentManager 打造多智能体 Copilot.pdf
- 小区绿化设计方案.doc
- 梁克会-(脱敏稿)2024GOPS上海站-大模型在超大规模数据库运维中的研究与应用.pdf
- 王晓博-搜推融合时代:UGC 社区信息分发技术升级与创新实践.pdf
- 傅奎-安全大模型的最后一公里.pdf
- 1-5-10故障体系建设:根因 分析实践.pdf
- 安全运维新范式 DevSecOps 结合 LLM、RAG 和 Agent的创新实践.pdf
- 刘昊-B站轻量级容灾演练体系构建与业务实践.pdf
- 付俊伟-AIGC 浪潮下 WebNN 的演进与实践.pdf
文档评论(0)