Prometheus大规模业务监控实战.pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大规模 Prometheus 业务监控实战 张柳青 / 百度智能云 QCon 2023全球软件开发北京大会 个人介绍 • 张柳青 • 百度智能云 云原生部 • 2012年加入百度,长期从事监控、云原生方向架构与研发工作 • 现任百度云原生可观测方向技术负责人 QCon 2023全球软件开发北京大会 • Prometheus 业务监控遇到的挑战 • 高性能 Prometheus 实践 • 高可用 Prometheus 实践 QCon 2023全球软件开发北京大会 • Prometheus 数据准确性问题 • 总结与展望 百度监控发展史 脚本化监控 统一监控平台 开放监控平台 智能监控平台 人工配置采集脚本 平台统一监控能力 可配置和 自定义能力 智能异常检测 2008 2012 监控标准库 2015 故障根因诊断 QCon 2023全球软件开发北京大会 2019 Prometheus 、OpenTelemetry规范标准化 指标 、Trace 、日志关联分析 业务监控在 Prometheus 中的落地场景 故障管理 容量管理 性能分析 运营分析 QCon 2023全球软件开发北京大会 •故障发现 •容量治理 •分阶段响应时间 •流量分析 •故障定位 • 自动扩缩容 分析 •AB实验对比 为什么Prometheus天然适合业务指标 • 灵活的数据模型 : • Prometheus数据模型天然适合表达业务数据,Counter/Histogram/Summary ,多维度指标模型 • 丰富的数据可视化能力 : • PromQL 灵活分析能力 QCon 2023全球软件开发北京大会 • 全栈监控关联分析 : • 集成移动端、资源、应用、业务等各类监控为一体,实现数据互通,全局分析 大规模业务监控在 Prometheus 架构下的挑战 高性能 高可用 准确性 QCon 2023全球软件开发北京大会 Prometheus单机引擎存在的问题 • Prometheus-server • 集采集、数据存储、PromQL查询、预计算、告警检测为一体 • 易部署、易运维 • 性能瓶颈 QCon 2023全球软件开发北京大会 • 单机Exporter采集性能有限 • 本地存储写入性能存在瓶颈 • 本地存储数据保存时长受磁盘大小限制 • 可用性保障 • 不具备高可用保障能力,单机故障采集失败、所有数据丢失 Prometheus联邦高可用集群 • 使用中央的Prometheus Server服务,来聚合多个Prometheus数据,实现扩展性 • 使用主备+负载均衡来实现高可用 QCon 2023全球软件开发北京大会 • 中央Prometheus Server无法突破写入性能、磁盘大小瓶颈 • 主备高可用方案单节点数据丢失,无法补齐,概率性查询失败 • Prometheus 业务监控遇到的挑战 • 高性能 Prometheus 实践 • 高可用 Prometheus 实践 QCon 2023全球软件开发北京大会 • Prometheus 数据准确性问题 • 总结 “降维打击”业务指标降维预聚合方案 • 业务指标量级大 • 原始

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档