- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE21
CONA数据治理平台
全流程使用手册V2.1
2020年2月17日
目录
TOC\o1-3\h\z\u第一章、 CONA3.0背景概要 4
1.1研发背景 4
1.2 CONA专有名词解释 5
1.1.1.实体 5
1.1.2.事件 5
1.1.3.关系 6
1.1.4.SCOPA元素 7
第二章、 CONA的安装部署 7
第三章、 CONA数据治理流程 7
第四章、 配置计算 8
4.1知识图谱 8
4.2原始表 8
4.3目标表 9
4.4映射关系 9
4.5规则配置 9
4.6规则管理 9
4.7验证 9
4.8配置计算整体流程 10
4.9注意事项 10
第五章、 计算 10
5.1 计算引擎UI 10
5.2 OracleToHive 11
5.3 HiveToHDFS 12
5.4 Merge 14
注意事项 16
第六章、 数据结果的处理 16
6.1生成目标表的Json文件 16
第七章、 通用全流程操作说明 17
第八章、 CONA数据流说明 19
8.1 流式数据治理的数据流向说明: 20
8.2 批式数据治理的数据流向说明: 21
8.2.1 表和映射 21
8.2.2 场景说明 23
CONA3.0背景概要
1.1研发背景
SCOPA是一款大数据利器,它通过对海量数据进智能分析、关联挖掘,构建行业知识图谱,进而解决事件分析和预测不及时、准确度低的问题。SCOPA整体解决方案中,需要将多源异构数据源的数据经过处理,清洗后,加载到Titan、HBase、ES等大数据存储中。
但是,由于原始数据库的设计不是按照异构的不同类型的大数据存储方案设计的,因此需要经过数据建模,将不同数据源中的数据经过聚合、拆分、筛选等重构处理后,才能加载到SCOPA的大数据库存储中。这个过程在实际项目中需要对上百张表的每个字段名称、属性、类型、含义、真实数据逐一分析、逐一定制化操作后,才能抽取出符合异构大数据平台要求的数据。传统过程需要人工进行,繁琐、复杂、费时、出错率高。例如,在公安领域中有大量的统计数据(如嫌疑人身份信息、出行信息、社会关系信息等),这些原始数据不仅数量庞大,而且具有大量的冗余,人工分析无疑是不切实际的。CONA产品就是为应对这种场景而开发的。基于以上背景,CONA产品通过产品化方式解决人工治理数据低效的痛点。CONA产品的输入是一系列的原始表,输出是通过一系列的原始表经过转换而得到的目标表(目标表指的是实体,事件,关系三种类型的表)。在已上线使用的CONA2.0版本中,已经高效解决数据从数据源落地到HDFS的整个计算流程。CONA3.0最主要解决的是通过高效的人机交互手段,辅助用户快速、准确的完成配置计算的过程,提高配置计算的效率,并将业务模型以知识的形式沉淀在CONA中。
CONA专有名词解释
实体
实体的定义:指在现实中不做进一步分割的一类对象。
实体的提取规则:
实体提取的主要是在系统中会被主要分析的对象种类,如人,车,户籍等;
实体在后端存入到图数据库Titan;
实体在前端操作中支持推演(向外扩展一度关系),子图(向外扩展多度关系),路径(在一定度数内的所有路径),时间(展示一定时间内的事件)等操作;
实体提取最重要的是表示唯一实体的key字段,该字段一定不能为空,否则无法提取出该实体的数据。
事件
事件的定义:在特定时空维度(如网吧,车站等)刻画主题和客体间关系的一类对象,主体必须是实体,客体可以是实体,也可以不是(如虚实体);例如,有一个事件“人在上午12点去车站乘车”。其中事件的主体是“人”,客体是“车站”,发生时间是“上午12点”。
事件的提取规则:
事件的提取可以为实体在一个时间点(段),在一个客体(物理空间车站或虚拟对象QQ)发生的一次记录,如一个人的乘车记录;
事件在前端以边的形式存在,不支持推演;
有扩展属性的事件存储在事件数据库HBase;
事件提取最主要的是主体的key、客体和时间,且保证主体所代表的实体已经可以提取并存储到图数据库中。
关系
关系的定义:刻画实体间各种关联的一类对象;例如,有一个关系“人和身份证件的从属关系”。其中实体是“人”和“身份证件”,二者的关系是从属关系。
关系的提取规则:
关系分为实体之间的联系,如人之间的多次同行,人和身份证的从属关系;
关系分为静态关系和动态(隐性)关系
静态关系是指能够直接从源数据中提取到的关系,需要由CONA工具提取生成;
静态关系指在一行数据中可以提取出的关系,例如,常住人口信息表中一
文档评论(0)