社保数据集成系统ETL研究与开发.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

社保数据集成系统ETL研究与开发

?

?

李宏智

摘要:该文主要通过研究社保系统数据集成中使用的ETL方法,并结合同煤集团社会保险管理信息系统的现状,提出了采用数据仓库法实现同煤集团社保系统的数据集成。重点介绍了社保系统数据集成中ETL的开发。经过验证能够建立统一的、完整的、高质量的社保系统数据仓库。

关键词:数据仓库;数据集成;ETL;社会保险

1ETL技术

1.1ETL技术介绍

ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是用来构建数据仓库,用户首先抽取数据,然后经过清洗和转换,最后加载到数据仓库中去。在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面。

1.2ETL技术过程

1.2.1数据抽取

首先,做好准备工作。弄清同煤集团社会保险系统包含多少业务管理信息系统,各个管理系统的DBMS类型。然后,可以用数据库链接或ODBC的方式建立链接。从数据库中抽取数据一般有全量抽取和增量抽取。

1.2.2数据转换

这个过程包括了数据清洗和数据转换两个步骤。数据清洗包括检查数据一致性,处理无效值和缺失值等。对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,发给用户,修改以后再进行数据转换。数据转换将不同业务系统的相同类型的数据统一,用一个相同的编码表示。

1.2.3数据装载

数据装载是指将数据放到数据仓库中去。数据装载有四种装载模式:完全刷新,镜像增量,事件增量,镜像比较。

2ETL工具介绍

2.1Kettle

Kettle是国外开源的ETL工具,可以在Window、Unix等系统下运行,目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON允许你通过图形界面来设计转换过程,PAN允许你批量运行转换,CHEF允许你创建任务,KITCHEN允许你批量设计的任务。

2.2DataStage

DataStage能自动对多种数据源的数据抽取、转换和维护,并将数据仓库集成的工具。是一个基于C/S的软件,必须安装服务器和客户端软件,它的所有开发工作都是在一个工程中。在DataStage工具面板上有很多组件。Datastage包含四大部件:Administrator、Manager、Designer、Director。

2.3PowerCenter

PowerCenter是Informatica公司开发的ETL工具。此产品可以提供企业部门如XML、网站日志、关系型数据集成。PowerCenter在内存中执行所有的数据抽取转换、整合、装载的功能。

2.4OWB和ODI

OWB是Oracle的一个综合工具,它提供对ETL、数据质量、数据审计,以及数据和元数据的整个生命周期的管理,适用于Oracle数据库的ETL工具,OWB11g版包含在每个Oracle数据库11g版安装中。ODI和OWB一样,都是ETL工具,和OWB相比,它支持异构数据,可以和SOA集成。

2.5SSIS

SSIS是MicrosoftSQLServer2012IntegrationServices的简称。SSIS的体系结构主要由四部分组成:IntegrationServices服务、IntegrationServices对象模型、IntegrationServices运行时和运行时可执行文件以及封装数據流引擎和数据流组件的数据流任务。

2.6BeeLoad

Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具,可以通过简单直观的图形操作界面,帮助使用者快速定义ETL规则,使数据处理工作变得简单方便。

3实现方法

3.1同构冲突的解决

主要完成SQLserver2012数据库和oracle10g中各自所存储的社保相关数据的初步清理和转换,解决数据的冗余、各表之间字段命名冲突,如同名异义、异名同义等,为最终数据仓库的建立提供初始数据源。

3.1.1数据清理

1)冗余数据的清理:SELECTDISTINCT*INTO新的分析表名FROM有重复行数据的原始表名例如:selectdistinct*into基本信息仓库from基本信息表

2)无用字段的清理:ALTERTABLE表名DROPCOLUMN无用列名1,无用列名2,…

例如:altertable个人基本信息表dropcolumnBCC016(体重),BCC017(身高)

3)空值的清理:UPDATE表名SET列名=0WHERE列名ISNULL

UPDATE表名SET列名=WHERE列名ISNULL

4)不规则数据的清理:在操作时数据录入人员在录入数据时,不小心在实际数据之前输入了一个或多个空格,这些不起眼的空

文档评论(0)

134****8507 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档