建设数据仓库的一些经验教训知识讲稿.ppt

建设数据仓库的一些经验教训知识讲稿.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
建设数据仓库的一些经验教训知识讲稿.ppt

数据仓库与数据挖掘 分析型数据仓库 (DATA WAREHOUSE) 交易型数据库 (DATA BASE) 设计的目的 查询、分析、统计、报告,以主题为导向,以一组记录为处理单位 快速输入、更新、删除,以事务处理为导向,以单个记录为处理单位 实体关系特征 反规范化,较少连接(joins),多为简单的星型关系链 规范化,很多连接(joins), 关系复杂 (网状) 信息冗余 多处冗余 很少 表数量 较少 多 记录历史 长 短 用户数量 少 很多 表体积(字段数) 大 小 分析型数据仓库和交易型数据库的区别 数据仓库的星型结构 事实表 (FACT TABLE) 维度表 (DIMENSIONAL TABLE) 维度表 (DIMENSIONAL TABLE) 维度表 (DIMENSIONAL TABLE) 维度表 (DIMENSIONAL TABLE) 维度表 (DIMENSIONAL TABLE) 维度表 (DIMENSIONAL TABLE) 注:此星型结构不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合 数据集市(DATA MART) 数据集市是一个针对某个主题的经过预统计处理的部门级分析数据库。目前,一般理解为企业级数据仓库里的主题数据库。将数据集市理解为一个部门级的数据仓库也未尝不可。 当一个企业里存在着多个相互独立、数据定义不统一的数据集市时,就会导致信息的整合问题。因此,将原有的数据集市进行整合并归入数据仓库统一管理是一个必然的趋势。 一个数据集市可以由特定业务领域内多个相关的“星”组成。比如,营销集市可以由“订单星”、“活动星”、“销售机会星”、“售后服务星”、“报价星”和“客户反馈星”等共同组成为一个营销分析数据集市,为营销人员提供查询分析的数据源。 数据获取、精简和转换工具(ETL) 由于数据仓库有自己的独立数据库系统,字段长度、字段类型、索引定义等与交易数据库有很大的不同,数据在导入之前,各种筛选、转换工作是必然的。因此,必须具备有效的导入工具。 数据仓库或数据库提供商都有专门设计的数据导入工具,这些工具提供阶段性的数据预处理工作,支持各种流行的数据源。 这些工具的工作效率、易用程度及纠错能力是衡量数据仓库系统的重要性能指标之一。 数据仓库的管理平台 由于数据仓库存有大量的历史数据,它的数据容量比交易数据库要大得多,并且为了获得及时的分析数据,数据仓库必须定期从交易数据库中导入最新数据(如每天)。数据仓库的管理平台是系统管理员的日常维护和管理环境,其主要管理任务包括批处理作业管理,数据安全管理,数据冲突解决,数据质量核查,管理数据仓库元数据的更新,数据删除与复制,备份与恢复等,从而为保证数据仓库正常运转提供了基本的管理环境。 数据仓库的数据挖掘工具 在线分析处理是对历史数据的统计,它只提供“事实数据”,对今后的预测则完全交由用户靠自己的“人脑”判断。在线分析处理的结果充其量只是“人脑处理系统”的一个输入。 数据挖掘是从数据仓库中挖掘出有价值的带有规律性的行为模式,并对未来趋势作出预测的一个数据分析过程,因此,它更接近于人工智能范畴。它的目的是为了建立一个符合“历史经验”的预测模型,既要帮助用户回答诸如“明年那种预算可以获得最佳回报”,“哪一种类型的客户将是企业的主要收入来源”等决策。数据挖掘更注重于发现数据仓库中所蕴藏的,目前不为人知的某种“规律”或模式,因而,是“挖掘”,是“发现”,是“探索”,而不是“浏览”或“观望”眼前的事实结果。 DM,ETL工具 IBM产品 ORECLE产品 MICROSOFT产品 数据仓库 数据挖掘工具 OLAP工具 数据源 数据源 数据源 数据仓库体系结构 报表工具 建设数据仓库的一些经验教训 数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐步认识自己、提高自己的过程。 数据仓库不仅要反映出企业的现状,而且还要依靠人做出最终的决策。 确定分析和预测目标 了解数据 数据准备 数据相关性前期探索 模型构造 模型评估与检验 部署和应用 检验达到预定成功率? 预测变量相关性 不正确? 基础数据不足 或噪音太大? 是 是 是 否 实施数据挖掘的基本步骤 1 2 3 4 5 6 7 实施数据挖掘的基本步骤 确定分析和预测目标 明确业务目标—通过数据挖掘解决什么样的问题?达到什么目的? 成功准则—把要解决的问题转化为可以测量的目标。 确定项目期—明确的计划。 了解数据 数据源。 分析数据的可用性与适用性。 随机地抽取一些数据检验其质量,确认数据的可信度。 实施数据挖掘的基本步骤 数据准备 对已确定的基本数据进行必要的转换、清理、填补以及合并工作。 数据准备工作比较繁琐,但非常重要,因为,如果数据里噪音太多,就会影响建立模型的准确度,数据越完整,越准

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档