智慧旅游-大数据治理平台建设方案.docxVIP

智慧旅游-大数据治理平台建设方案.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE7

智慧旅游

大数据治理平台建设方案

XXX科技有限公司

20XX年XX月XX日

目录

TOC\h\z\u\t标题1,1,标题2,2,标题3,3一数据质量 2

1.1质量规则管理 2

1.2质量规则执行 2

1.3数据质量监控 2

1.4质量问题管理 3

1.5质量评估报告 4

二数据评估 4

2.1数据使用评估 4

2.2数据关系评估 4

2.3时效性评估 5

2.4冗余数据评估 5

2.5重要性评估 5

三稽核管理 5

3.1稽核规则管理 6

3.2稽核任务调度 6

3.3稽核结果分析 6

3.4数据问题管理 7

数据质量

质量规则管理

质量规则配置:

依据质量需求,灵活配置质量规则。如开发质量规则(如命名不规范、不必要的跨层数据访问、不合理的大表关联操作)、数据波动规则(接口/指标数据同环比)。

质量规则自动优化:

根据历史运行信息,自动给出调整监控算法、阀值、优先级建议,使得规则更合理。

质量规则执行

依据质量规则执行的时机需求,配置执行方式,依据执行规则,管控平台自动执行质量规则检查。质量规则执行触发方式支撑按固定时间周期(如月、周、日)、事件触发等执行方式。

数据质量监控

依据质量检查规则对数据质量进行监控,如接口波动率的监控,如果发现异常现象可及时告知或预警相关人员。

参考检查方法列表

检查方法

检查描述

适用场景

数值检查

指标数值与阈值上下限的比较,阈值可以手工录入经验值或采用n个周期内指标的最大最小值作为阈值的上下限,需要考虑周末和节假日对指标的影响等

主要适用变化趋势平稳的业务关键指标

波动检查

波动检查包括同比波动检查和环比波动检查,先计算指标的同比或环比波动率,然后与预定的波动率上下限(阈值)进行比较,阈值可以手工录入经验值或采用n个周期内指标的最大最小值作为阈值的上下限,需要考虑周末和节假日对指标的影响等

如业务发展类指标、用户数类指标等

平衡性检查

通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间潜在的平衡或其他比较关系

需要进行相关性检查的指标,如日指标汇总与月指标的平衡检查

加权波动检查

通过对单个指标的基础检查结果和影响因素的加权计算分析,综合检查指标的波动和变化情况

关联性检查

定义相关性指标,和指标相关系数,如正强相关,负相关,定义两个指标当前值是否满足相关性的特点

主要用于考察多个指标之间的逻辑关系是否符合规律,如量收匹配的问题

一致性检查

计算一个指标在不同的采集计算点的值是否一致

在底层的值,在应用汇总表值,在前台应用1,应用2中的值是否一致

值域评判

直接对某个值进行评判或是否在允许的取值范围内容进行评判

质量问题管理

统一收集数据质量问题、形成数据质量知识库,提升数据质量问题解决效率。

质量评估报告

依据质量检查评估规则对数据质量进行评估,形成数据质量评估报告,定期对评估报告进行分析得出优化建议,并付诸优化动作,持续改进数据质量。

数据评估

数据使用评估

对数据及应用使用情况进行评估,并据此数据存储、处理、应用进行优化。

数据评估示例表:

科目

分摊方法

数据评估

前台应用使用次数

应用的点击次数平均分摊给应用链路上的所有表

分发给外部系统接口数据

(分发给外部表,平均分摊给分发接口表链路上的所有表)*加权系数

采集外部系统数据

(采集外部表,平均分摊给采集接口表链路上的所有表)*加权系数

外部应用调用次数

(外部应用调用表次数平均分摊给应用表链路上的所有表)*加权系数

数据关系评估

数据关系的类别可以分为以下几种:

1.主外键关系。

2.参考关系。主要描述实体表与维度表的关系。

3.输入与输出。

4.历史拍照。

5.冗余备份。从目的可以划分为:分工提速、转储优化、应用分流、数据统计临时备份。

大数据中心通过建立处理程序解析、元数据解析、及上线登记等方式实现数据关系评估。

时效性评估

通过对数据关系的分析,发现孤立表或无效表。根据表名判断此表大约含义,建表日期、状态日期,表内数据时间等判断此表最后更新时间。通过数据的使用日志,对孤立表和无效表进行判断是否有使用。

冗余数据评估

大数据中心将来纳入大量数据,可能存在着大量冗余的数据。冗余数据一方面给数据的精确性和可靠性将带来影响,同时也影响着数据库的性能。

系统必须要解决冗余问题,主要有两个环节:发现冗余数据和冗余进行消除合并。

重要性评估

在数据使用过程中和数据应用中对表和数据的重要性进行评估,通过访问频次,数据质量,数据热度,数据标准化等指标,进行全面评估,并输出表重要性级别。

稽核管理

根据预先配置的规则、算法和质量检查度量

文档评论(0)

wangzhizhen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档