数据挖掘实验报告_3.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验报告 以SQL Server 2005提供的Adventureworks数据库为商业智能解决方案的数据源 201113050416 武晓焱 一、实验目的 1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义。 2、熟悉SQL Server 2005的软件功能,并学习该软件对数据的分析作用。 3、根据软件提供的数据进行管理 二、实验步骤与分析过程 1、Adventureworks数据库设计的方面很多,但是我们的目标很简单,只有以下三个: 需要分析不同类别的产品通过直销在不同地区、不同时间段内销售的业绩。 生成分析结果的报表。 分析影响客户所有车的数量的因素。 2、目标可以发现分析销售业绩基于的唯独有三个:产品、客户和时间,事实数据则为反通过映销售业绩的订单。 对于产品我们关心的是产品的名称和分类,由于产品和产品类别之间有一对多的关系,因此可以将这个维度设计为雪花模型。 对于客户,我们主要关心客户的姓名、年龄、性别、婚姻状态、孩子的状况、是否拥有房产、拥有汽车的数量,所在的地区、国家、省和城市等信息。 对于时间,我们只关心年、季度和月份,这些在数据库中不是显示存在的,但是可以从订单上的OrderDate字段中计算出来。 对于事实数据,我们只会关心订单中产品的价格、折扣、数量和总价的情况。 可以得到如下需求分析模型: 分析模型的事实表、维度表关系 3、数据转换和抽取(建立数据仓库) 1)首先使用Microsoft SQL Server Management Studio新建一个数据库Sales_DW作为数据抽取的目标数据库,Adventureworks作为源数据库。 2)新建Integration Services项目Integration Sales,并在此项目中新建一个SSIS包Integration Sales.dtsx,在次包中进行数据的抽取,整合等操作。 3)创建数据源 在Integration Sales项目下的数据源文件夹中添加两个新的数据源连接,一个连接源数据库Adventure works,一个连接目标数据库Sales_DW,数据源名称分别Adventure works和Sales_DW。 设计SSIS包Integration Sales.dtsx 设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。 数据抽取中所涉及的表主要有事实表FactSales,产品信息表DimTime以及客户信息表DimCustmer。 抽取事实表FactSales的数据流任务的过程 选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器,并重命名为FactSales。 双击【数据流任务】FactSales打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。 打开【OLE DB源编辑器】,进行【OLE DB源】对象的设置。 在上述设计中需选中数据源Adventure works,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。 完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源Sales_DW,并新建表FactSales。 【SQL目标编辑器】对话框 完成后的数据流任务视图如下所示: 数据仓库中其他表的数据抽取设计步骤与FactSales相同,只是输入的SQL命令不同。 Integration Sales包的完整设计视图: 建立OLAP和挖掘模型 创建OLAP多维数据集数剧源和数据源视图。 新建项目Sales Analysis,并添加到已有解决方案中。在此项目中新建数据源选中已在Integration Sales项目中创建好的数据源Sales_DW。 新建数据源视图,选中数据源Sales_DW,并将FactSales、DimCategory、DimCustomer、DimTime和DimProduct选为视图【包含的对象】,命名此数据源视图为Sales DW View。 创建多维数据集 新建多为数据集Sales OLAP。选中数据源视图Sales DW View,并将FactSales选为事实表,其他表作为维度表。 由于时间维度DimTime和客户维度DimCustomer还分别具有时间层次结构和地理层次结构,因此还需要为这两个维度创建层次结构,如下所示: 多维数据集Sales OLAP的数据视图和结构 右击【多维

文档评论(0)

186****6075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档