- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验报告
以SQL Server 2005提供的Adventureworks数据库为商业智能解决方案的数据源
201113050416 武晓焱
一、实验目的
1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义。
2、熟悉SQL Server 2005的软件功能,并学习该软件对数据的分析作用。
3、根据软件提供的数据进行管理
二、实验步骤与分析过程
1、Adventureworks数据库设计的方面很多,但是我们的目标很简单,只有以下三个:
需要分析不同类别的产品通过直销在不同地区、不同时间段内销售的业绩。
生成分析结果的报表。
分析影响客户所有车的数量的因素。
2、目标可以发现分析销售业绩基于的唯独有三个:产品、客户和时间,事实数据则为反通过映销售业绩的订单。
对于产品我们关心的是产品的名称和分类,由于产品和产品类别之间有一对多的关系,因此可以将这个维度设计为雪花模型。
对于客户,我们主要关心客户的姓名、年龄、性别、婚姻状态、孩子的状况、是否拥有房产、拥有汽车的数量,所在的地区、国家、省和城市等信息。
对于时间,我们只关心年、季度和月份,这些在数据库中不是显示存在的,但是可以从订单上的OrderDate字段中计算出来。
对于事实数据,我们只会关心订单中产品的价格、折扣、数量和总价的情况。
可以得到如下需求分析模型:
分析模型的事实表、维度表关系
3、数据转换和抽取(建立数据仓库)
1)首先使用Microsoft SQL Server Management Studio新建一个数据库Sales_DW作为数据抽取的目标数据库,Adventureworks作为源数据库。
2)新建Integration Services项目Integration Sales,并在此项目中新建一个SSIS包Integration Sales.dtsx,在次包中进行数据的抽取,整合等操作。
3)创建数据源
在Integration Sales项目下的数据源文件夹中添加两个新的数据源连接,一个连接源数据库Adventure works,一个连接目标数据库Sales_DW,数据源名称分别Adventure works和Sales_DW。
设计SSIS包Integration Sales.dtsx
设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SIS设计器窗口中,再对这些对象进行设计。
由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。
数据抽取中所涉及的表主要有事实表FactSales,产品信息表DimTime以及客户信息表DimCustmer。
抽取事实表FactSales的数据流任务的过程
选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器,并重命名为FactSales。
双击【数据流任务】FactSales打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。
打开【OLE DB源编辑器】,进行【OLE DB源】对象的设置。
在上述设计中需选中数据源Adventure works,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。
完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源Sales_DW,并新建表FactSales。
【SQL目标编辑器】对话框
完成后的数据流任务视图如下所示:
数据仓库中其他表的数据抽取设计步骤与FactSales相同,只是输入的SQL命令不同。
Integration Sales包的完整设计视图:
建立OLAP和挖掘模型
创建OLAP多维数据集数剧源和数据源视图。
新建项目Sales Analysis,并添加到已有解决方案中。在此项目中新建数据源选中已在Integration Sales项目中创建好的数据源Sales_DW。
新建数据源视图,选中数据源Sales_DW,并将FactSales、DimCategory、DimCustomer、DimTime和DimProduct选为视图【包含的对象】,命名此数据源视图为Sales DW View。
创建多维数据集
新建多为数据集Sales OLAP。选中数据源视图Sales DW View,并将FactSales选为事实表,其他表作为维度表。
由于时间维度DimTime和客户维度DimCustomer还分别具有时间层次结构和地理层次结构,因此还需要为这两个维度创建层次结构,如下所示:
多维数据集Sales OLAP的数据视图和结构
右击【多维
您可能关注的文档
最近下载
- 2025届湖南高三上学期月考试卷(一)语文试题含答案.docx VIP
- 中考语文备考之名著阅读《儒林外史》近三年中考真题考点整理汇编.docx
- 中国近代史纲要课件(第9章 社会主义建设在探索中曲折).ppt
- 高中语文常考的修辞手法和表现手法.doc VIP
- 脑卒中后吞咽障碍患者进食护理(2023年中华护理学会团体标准).pptx
- 贝多芬第一钢琴奏鸣曲钢琴谱(第一乐章)-Op.2-No.1(高清原版PDF).pdf
- 国庆节研究报告主题.docx VIP
- 第9课《猎人海力布》第1课时 大单元教学课件 部编版五年级语文上册.ppt
- 汽车起动机常见故障分析.pptx VIP
- 《软件建模与分析》课程教学大纲.docx VIP
文档评论(0)