《数据仓库与数据挖掘》论文.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据仓库与数据挖掘》论文

数据仓库原理以及联机分析处理的应用 摘要:了解数据仓库原理以及联机分析处理的概念,利用Analysis Services系统,建立具有父子维度的多维数据集,以此加深对论题的理解。 关键词:数据仓库结构、数据仓库模型、元数据、OLAP 前言 数据仓库(Data Warehouse,DW)和数据挖掘(Data Mining,DM)是决策支持的两项重要技术。在数据仓库中利用多为数据分析来发现问题,并找出产生的原因,能从大量历史数据中预测未来;利用数据挖掘方法能从大量数据中获取知识。两项技术的共同特点是都需要利用大量的数据资源。 2.数据仓库原理 ㈠ 数据仓库结构体系 数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。整个数据仓库的组织结构是由元数据来组织的,它不包含任何业务数据库中的实际数据信息。在数据库中只存储当前的详细数据,而数据仓库存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为适应决策需求而增加的。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。数据集市是一种更小、更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。它是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用支持用户利用已用的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。 数据集市与数据仓库的差别: 数据仓库是基于整个企业的数据模型建立的,它面向企业范围的主题。而数据即使是按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此,它们对数据集市的期望也不一样。 部门的主题与企业的主题之间可能存在关联,也可能不存在关联。数据仓库中存储整个企业内非常详细的数据,而数据集市中数据的详细程度要低一些,包含概要和累加数据要多一些。 数据即使的数据组织一般采用星型模型。大型数据仓库的数据组织,如NCR公司采用第三范式。 ㈡ 数据仓库数据模型 数据仓库不同于数据库。数据仓库的逻辑数据模型是多维结构的数据试图,也称多维数据模型。目前,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。 ㈢ 数据抽取、转换和装载 数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL过程。 数据抽取工作包括:确认数据源;数据抽取技术。 数据抽取过程中得到的数据是没有经过加工的数据,不能直接应用于数据仓库,必须经过多种处理,将抽取的数据转换成可以存储在数据仓库中的信息。它的基本功能为:选择,分离(合并),转化,汇总,清晰化。 数据装载包括数据装载方式和数据装载类型。其方式有:基本装载,追加,破坏性合并,建设性合并。其类型有:最初装载,增量装载,完全刷新。 ㈣ 元数据 元数据在数据仓库的建造、运行中有着极其重要的作用。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。最基本的元数据相当于数据库系统中的数据字典。有两类人会用到元数据:最终用户(包括商业分析员)和IT人员(包括开饭人员和管理人员)。数据仓库的用户最关心的是两类元数据:元数据高速数据仓库中有什么数据,它们从哪里来,即如何按主题查看数据仓库的内容;元数据提供已有的可重复利用的查询语言信息。 3.联机分析处理的应用 ㈠ OLAP概念 数据分析处理是共享多维信息的快速分析,它包括体现了四个特征:快速性,可分析性,多维性,信息性。 OLAP的准则:多维概念视图,透明性,可访问性,一致稳定的报表性能,客户/服务器体系结构,维的等同性,动态的稀疏矩阵处理,多用户支持能力,非限定的跨维操作,直观的数据操作,灵活的报表生成,不受限制的维和聚集层次。 其基本概念有: 变量:是数据的实际意义,即描述数据“是什么”。 维:是人们观察数据的特定角度。 维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面,通常称为这多个描述方面的维的层次。 维成员:维的一个取值称为该维的一个维成员。 多维数组:其可以表示为:(维1,维2,…,维n,变量)。 数据单元(单元格):多维数组的取值称为数据单元。 ㈡ OLAP的数据模型 其包括MOLAP数据模型和ROLAP数据模型。这两者的不同在于: ①数据存储速度:MOLAP在此上性能好,响应速度快。 ②数据存储的容量:ROLAP在存储容量上基本没有限制,而MOLAP难以达到太大的字节级。 ③多为计算的能力:MOLAP能够支持高性能的决策支持计算,而ROLAP中无法完成多行的计算和维之间的计算。 ④维度变化的适应性:ROLAP有更好的适应性。 ⑤数据变化的适应性:ROLAP适应性更强。 ⑥软硬件平台的适应性:ROLAP更优。 ⑦元数据管理:两者各有优缺。 4.建立具有父子

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档