- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * you are ready to evaluate how the data mining results can help you to achieve your business objectives. Before writing final reports and deploying the model, it is important to more thoroughly evaluate the model, and review the steps executed to construct the model, to be certain it properly achieves the business objectives. At the end of this phase, a decision will be made on the use of the data-mining results. * * * * * * 知识管理与数据分析实验室 知识管理与数据分析实验室 数据挖掘软件与工具 * 知识管理与数据分析实验室 * 数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。 数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。 * 知识管理与数据分析实验室 * 一、数据挖掘软件—重要研究方向 * 二、数据挖掘软件的发展 代次 特征 DM算法支持 集成性 分布计算 数据模型 可视化功能 1 作为一个独立的应用 和移动数据/各种计算设备的数据联合 独立的系统 单个机器 向量数据 无 2 和数据库以及数据仓库集成 多个算法:能够挖掘一次不能放进内存的数据 数据管理系统,包括数据库和数据仓库 同质、局部区域的计算机群集 有些系统支持对象,文本和连续的媒体数据 基本图表 3 和预测模型系统集成 多个算法 数据管理和预言模型系统 intranet/extranet网络计算 支持半结构化数据和web数据 较复杂多维图形及动画 4 和移动数据/各种计算设备的数据联合 多个算法 数据管理、预言模型、移动系统 移动和各种计算设备 普遍存在的计算模型 交互式可视化挖掘流程设计和结果展示功能 数据挖掘功能 数据挖掘 估计Estimation 分类Classification 预测Prediction 关联规则Association Rules 描述与可视化Description and Visualization 聚类Cluster 数据挖掘模型的分类 数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis) * 数据挖掘技术的分类 * 数据挖掘 描述 预测 统计回归 关联规则 决策树 可视化 聚类 顺序关联 汇总 神经网络 分类 时间序列预测 数据挖掘的典型结果——金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树) * 收入大于5万元/年 是 否 有无储蓄帐户 是否房主 否 是 是 否 批准 不批准 批准 数据挖掘的典型结果——电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络) * 输 入 流失概率 (0.87) 输 出 男 29 3000元/月 套餐A 130元/月 ………… 数据挖掘的典型结果——零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图) * 数据挖掘的典型结果——制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类) * 数据挖掘的典型结果——政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络) * Business Understanding 商业理解过程 理解商业目标 熟悉业务流程 统一业务术语 成本/收益分析 当前系统评估 主要用户使用者 结果的输出形式 挖掘任务的结果和现有系统的集成 任务分解 挖掘目标分解为子任务 将商业目标转化为数据挖掘任务 约束条件确认 资源 数据保护制度等 制定项目计划 1 商业目标的确认 数据挖掘目标的确定 数据挖掘成功的标准 Data Understanding 数据理解过程 数据源情况 数据处理范围 数
文档评论(0)