大数据-大数据技术.ppt

  1. 1、本文档共177页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘的基本技术 有指导的数据挖掘技术——有指导的学习 IF 性别=Female 19=Age= 43 THEN 寿险促销=Yes 规则准确度:100.00% 规则覆盖率:66.67% IF Sex=Male Income Range=40-50K THEN寿险促销=No 规则准确度:100.00% 规则覆盖率:50.00% * 数据挖掘的基本技术 有指导的数据挖掘技术——有指导的学习 IF 信用卡保险=Yes THEN 寿险促销=Yes 规则准确度:100.00% 规则覆盖率:33.33% IF 收入=30-40K 手表促销=Yes THEN寿险促销=Yes 规则准确度:100.00% 规则覆盖率:33.33% * 数据挖掘的基本技术 无指导数据挖掘技术——无指导聚类 与有指导学习不同,无指导聚类(unsupervised clustering )为无预定义类数据建立模型。数据实例根据聚类系统定义的相似分类机制进行分组,在一种或多种评估技术的支持下,最终由我们确定所构造聚类的含义。 * 数据挖掘的基本技术 无指导数据挖掘技术——无指导聚类 Acme 投资有限公司代理帐户数据 客户编号 帐户类型 保证金帐户 交易方式 月交易量 性别 年龄 爱好 收入 1005 Joint No Online 1.25 F 30 Tennis 40-50K 1013 Custodial No Broker 0.5 F 50 Skiing 80-99K 1245 Joint No Onllne 3.6 M 20 Golf 20-39K 2110 Individual Yes Broker 22.3 M 30 Fishing 40-59K 1001 Individual Yes Online 5.0 M 40 Golf 60-79K * 数据挖掘的基本技术 无指导数据挖掘技术——无指导聚类 有指导学习的典型问题 我可以开发一个在线投资人的一般特征文件吗?如果可以,区分在线投资者和使用经纪人的投资者的特征是什么? 有一个新客户,他最初并没有开设交易保证金账户,我是否可以确定他在将来会开设这样的账户? 我们能建立一个准确预测新投资人每月交易平均数的模型吗? 女性和男性投资人有什么不同特征? * 数据挖掘的基本技术 无指导数据挖掘技术——无指导聚类 无指导聚类的典型问题 哪些属性相似性决定Acme 投资公司的客户分组? 属性值的哪些不同之处分割了客户数据库? * 数据挖掘的基本技术 无指导数据挖掘技术——无指导聚类 通过无指导聚类将客户划分为3类 IF 保证金帐户=Yes 年龄=20—29 收入=40-59K THEN Cluster=1 准确度=0.80 覆盖率=0.50 IF 帐户类型 = Custodial 爱好=Skiing 收入= 80-90K THEN Cluster=2 准确度=0.95 覆盖率=0.35 IF 帐户类型=Joint 交易量/月5 交易方式=Online THEN Cluster=3 准确度=0.82 覆盖率=0.65 * 数据挖掘的基本技术 关联规则挖掘技术 关联规则(association rule)挖掘技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出属性。同时,一个规则的输出属性可以是另一规则的输入属性。 关联规则分析有时也叫购物篮分析,是因为它可以找寻出潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条关联规则。 * 数据挖掘的基本技术 关联规则挖掘技术 通过apriori关联规则挖掘算法,从Acme公司信用卡促销数据库可以得到以下关联规则: IF 性别=Female 年龄=over40 信用卡保险=No THEN 寿险促销=Yes IF 性别=Male 年龄=over40 信用卡保险=No THEN 寿险促销=No IF 性别=Female Age= over40 THEN 信用卡保险=No 寿险促销=Yes * 数据挖掘的基本算法 其它数据挖掘算法 K-平均值算法(一种无指导聚类算法) 遗传算法(可用于有指导学习的算法) 神经网络算法(可用于有指导学习的算法) * 目 录 大数据技术概论 云数据库技术 数据挖掘技术 商业智能 * BI理解 数据 商务智能是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助企业进行决策支持。 数据 信息 知识 决策 获取 管理 使用 * BI概念 商业智能(Business Intelligence,简称BI)的概念最早是Gartner Group于1996年

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档