CONA数据治理平台流式中心使用手册v3.3.2.docx

CONA数据治理平台流式中心使用手册v3.3.2.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

CONA数据治理平台

产品使用手册V3.3.2

2020年02月17日

CONA流式中心使用手册

版本编号:V2.1

2020年02月17日

目录

1 产品概述 5

1.1 背景 5

1.2 名词解释 5

1.3 配置流程 6

2 功能模块操作 9

2.1 数据源配置 9

2.1.1 数据源类型修改 9

2.1.2 原始表配置 11

2.1.2.1 页面查看 11

2.1.2.2 FlumeConf配置 12

2.1.2.3 生成conf 15

2.2 流式中心配置 16

2.2.1 选择数据源和平台环境 17

2.2.2 Topic配置 19

2.2.2.1 参数编辑 19

2.2.2.2 参数配置说明 19

2.2.2.3 执行命令展示 20

2.2.2.4 参数保存 20

2.2.2.5 参数初始化 21

2.2.2.6 更新Topic 22

2.2.2.7 删除Topic 22

2.2.3 Flume配置 23

2.2.3.1 参数编辑 23

2.2.3.2 参数配置说明 23

2.2.3.3 执行命令展示 24

2.2.3.4 参数保存 24

2.2.3.5 参数初始化 24

2.2.3.6 启动flume 24

2.2.4 SparkStreaming配置 25

2.2.4.1 参数编辑 25

2.2.4.2 参数配置说明 25

2.2.4.3 执行命令展示 28

2.2.4.4 参数保存 28

2.2.4.5 参数初始化 28

2.2.4.6 启动流 28

产品概述

背景

CONA对数据治理分成两大类,一类是批量数据治理,一类是流式数据治理。

在CONA历史版本中,流式计算配置一直在后台进行,前端只有启动按钮,后台参数配置技术性要求高、易出错、不适合大量流式数据治理的配置计算。在新版本3.3.0中,将流式计算配置变为可视化的前端配置,流程合理易理解,每个名词都有详细解释,大大减少了流式计算参数配置的复杂度;在流式计算性能上,3.3.0版本通过前端配置,可支持多个流并行处理数据,优化底层流式计算处理逻辑,大大提高了流式数据治理的效率。

名词解释

Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。即在流式中充当数据源抽取工具。

Kafka:Kafka是一个分布式消息队列。即在流式中充当数据存放管道。

SparkStreaming:SparkStreaming是一种构建在spark上的实时计算框架,它扩展了spark处理大规模流式数据的能力,以吞吐量高和容错能力强著称。即在流式充当流式治理引擎模块。

Topic:kafka存储的数据单元。

kafka数据源:CONA数据源类型为kafka的即为流式数据源。

源topic:指数据源通过flume对接kafka抽取到指定的topic中,即数据源名称。

目标topic:指通过sparkstreaming对接kafka治理数据到指定的topic中,即目标表名称。

FlumeConf:指Flume抽取数据源的时候,需要预先配置相关conf文件,且Flume运行需要配置source、channel、sink三个组件,生成一个conf文件,称之为FlumeConf。

配置流程

流式数据源导入,将数据模块数据源类型改为kafka导入原始表即可

原始表FlumeConf配置,需要将每张表配上相应的数据源信息,作用于FlumeConf的Source组件

生成Conf选择相应的集群环境,生成对应的flumeConf文件

进入流式中心,选择相应的数据源和平台,进行以下几步操作:

配置kafka的信息,生成topic

配置Flume的信息,启动Flume

配置SparkStreaming的信息,启动流

注意:第四步操作因为和集群相关,首次安装请操作后人为进行相应的检查,确保操作无误。

1-0-1原始表FlumeConf配置

1-0-2生成Conf配置

1-0-3流式中心

功能模块操作

数据源配置

数据源配置前提:已将需要进行流式数据治理的模板上传至原始表页面,可在数据源列表查看操作,具体可参考《CONA原始表使用手册》。(因流式数据源类型为kafka,所以针对数据表导出的模板需要手动修改数据源类型为kafka)

数据源配置流程:

修改数据源类型,并上传数据源模板;

选择数据源类型为kafka的数据源,进入二级原始表页面;

在原始表操作列配置每张原始表的FlumeConf;

点击生成conf按钮配置该数据源的conf。

数据源类型修改

从数据源导出模板后,打开模板excel,修改数据源类型为ka

文档评论(0)

152****8691 + 关注
实名认证
内容提供者

Sun认证程序员持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年07月07日上传了Sun认证程序员

1亿VIP精品文档

相关文档