数字化安全生产平台的思考以及落地.pptx

数字化安全生产平台的思考以及落地.pptx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字化安全生产平台的思考以及落地 行业背景十四五规划下加速各行业全面加速数字化升级“加速数字化发展:发展数字经济,推动数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。 加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平”数字政府网上办事大厅、数字防疫金融互联网银行、智能风控医疗健康智慧医疗、全国联保新零售智慧门店、全域营销交通物流智慧收费、出行服务能源水利精准预测、智慧水利生产制造生产调度、工业检测游戏云游戏、AR/VR 数字化转型中业务连续性保障的挑战工具分散告警难收敛人员边界 模糊架构复杂性缺乏 安全意识无应急 体系监控报警太多,如何过滤对业务有价值的报警事件,如何有效收敛?1监控工具分散,如何数据共享和统一,实现全景展示、全业务覆盖?2业务架构愈发复杂,敏感程度也变高,如何保障业务稳定性?3复杂业务场景下保障稳定性和连续性的职责边界不清,如何协同?4线上线下故障如何规范化预防和应对,应急流程如何保障顺畅?5故障定级规则不统一,如何追溯与改进?6 传统运维手段不足运维手段和工具割裂, 无法形成有效的组合拳工具割裂上云/云原生浪潮下,多数运维手段任然停留在基础设施层面而非业 务层面面向基础设施,非业务面对越来约复杂的业务架构和 越来越快的业务迭代,只能被动运维,难事前有效预防, 事中从容应对被动运维缺乏体系化、规范化、可扩展的 稳定性保障体系缺乏规范体系 阿里巴巴组织-技术-文化三位一体的安全生产体系值班长容灾演练 故障演练 预案演练 全链路压测 演练 演练验收全链路功能 仿真演练 组织机制文化全局架构容灾能力异地多活 同城容灾 运行态稳定性防护限流 降级 弹性 伸缩 流量 调度 开关 预案 发布变更风险控制变更管控 灰度/蓝绿 安全生产环 境攻防演练 数据中心系统数据垂直安全生产 考试认证 伏波讲堂 熔断机制 变更规范 运维红线 红黑榜/奖惩 安全生产日/月集团安全生产门户 应用数据流程支撑体系工单系统 活动平台 舆情中心 大促中控台 流量数据故障平台故障发现 故障应急 根因定位 故障恢复 故障复盘 故障数据挖掘 运行态稳定性度量压测 依赖 治理 故障 注入 业务对账 稳定性能力体系变更数据业务数据故障数据AIOPS智能 决策 专家 系统 AI 算法 数据运营稳定性/故障分 稳定性运营报告 运行态状态监控链路 监控 业务 监控 系统 监控 SL A监控 稳定性专项全局风险治理监控覆盖度全面灰度 数字化安全生产平台介绍DPS Scene(业务场景层)DPS Domain(能力领域层)DPS Flow(能力编排层)(行业方案层)DPS SDK(能力扩展层)DPS Product (产品层)故障预防 三板斧故障快恢1-5-10故障演练 红蓝攻防容量管理 大促一体 化容错管理 韧性评测容灾管理 多云多活质效医保 数字防疫 金融系统上云 …….业务流程编排用户租户组织业务监控域容灾域快恢域故障域变更域演练域协同域……CRD Spec阿里商业阿里开源三方开源业务大屏自定义配置数字化安全生产平台(Digital Production Stability,简称DPS)是一站式的业务连续性保障平台,解决安全生产过程中的组织协同难, 应急效率低,业务故障频发,SRE理论落地实施难等问题,提升业务连续性.核心特点DPS Solution场景化业务保障流程产品化安全生产解决方案标准化安全生产能力管理数字化安全生产度量 1-5-10介绍5分钟故障处置监控发现告警通知人工上报故 障 确认故 障 通 告故 障 响 应故 障 定位故 障 快恢恢 复 验 证1分钟故障发现10分钟故障快恢 1分钟故障发现体系建设落地面临问题解决思路核心业务监控大盘监控能力风险覆盖率指标1分钟发现有效率发现漏报率监控系统多样导致数据分散自研监控商业监控开源监控监控指标复杂导致重点缺失网络传输监控(丢包,延迟)服务器系统状态(CPU,load)虚拟机,容器监控应用运行状态(成功率,qps)业务运行状态(订单创建量…)用户体验(白屏,内容错误.)人员视角不同导致问题遗漏业务人员关注业务,应用运行运维人员只关注机房监控全局监控大盘核心业务监控-故障关联核心业务监控中心化管控系统监控去中心化监控非核心业务监控-风险预警关联统一收敛查询统一监控系统自研监控商业监控开源监控核心 业务 监控指标用户体验业务运行状态影响面下跌幅度 持续时长 错误总量业务故障场景非核心监控业务运行状态指标影响面下跌幅度持续时长错误总量业务风险预警业务故障场景系统监控指标容器虚拟机监控服务器系统状态应用运行状态影响面系统资源水位容量饱和度配置方式系统告警升级配置方式配置方式 5分钟故障处置体系建设研发人员运维人员测试人员应急链路角色多缺乏流程驱动

您可能关注的文档

文档评论(0)

139****5242 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档