商务智能-数据挖掘基础.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘基础

数据预处理目录2数据挖掘概念3数据挖掘流程4数据概念1

1.1数据对象与属性类型1数据概念国际数据管理协会(DAMA)认为数据是“以文本、数字、图形、图像、声音和视频等格式对事实进行表现”。美国质量学会(ASQ)将数据定义为“收集的一组事实”。国际标准化组织(ISO)将数据定义为“以适合于通信、解释或处理的正规方式来表示的可重新解释的信息。”在数据挖掘领域,数据集合由数据组成,一个数据对象代表一个实体,数据对象用属性进行描述,通常数据对象又称样本、实例、数据点或对象。在数据库领域,数据对象存放在数据库中表示数据元组,它的行对应数据对象、列对应属性。

1.1数据对象与属性类型1数据概念数据类型数据特征举例分类数据(categoricaldata)没有数量关系,没有顺序关系状态,如‘男’‘女’、‘0’‘1’有序数据(ordinaldata)有顺序关系特征量,如‘甲’‘乙’‘丙’‘丁’、甲>乙>丙>丁区间数据(intervaldata)有数量关系,可比较大小,可排序,可计算差异实数,如长度、重量、压力比例数据(ratiodata)实数,事物之间的比值有数量关系,可以比较大小,可排序,可计算差异,具有绝对零点实数,事物之间的比值对于结构化数据,按照对客观事物测度的程度或精确水平来划分,可将数据的计量尺度从低级到高级、由粗略到精确划分为四种,如表1所示。表1常见的数据类型及其特征

1.1数据对象与属性类型1数据概念属性是一个数据字段,表示数据对象的一个特征,在学术领域,属性、维、特征等名称通常可以互换地使用。一个属性的类型由该属性可能具有的值的集合决定,属性的类型有:标称属性、二元属性、序数属性、数值属性、连续和离散属性。标称属性表示一些符号或事物的名称,标称的每个值代表某种类别或状态,因此标称属性可以看作是某种分类,标称值可以是有序的也可以是无序的。例如,性别的可能值为男或女。通常,在标称属性上面的数学运算是没有具体意义的,从一个顾客编号减去另一个顾客编号并没有实际意义。因为标称属性值并不是具有意义的顺序数字,找出这种属性的均值也是没有含义的。

1.1数据对象与属性类型1数据概念二元属性是一种标称属性,只有两个类别或状态即0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,两种状态分别对应于true和false。如果两个状态同等重要,则属性是对称的;否则属性是非对称的,通常用1来表示更重要的状态。序数属性代表值之间是有顺序含义的,但是相继值之间的差是未知的。如军衔,排长、连长、营长、团长,是有序的,但不能说团长是连长的多少陪数,序数属性不是定量的。对于不能客观方法度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。在一项调查中,作为顾客,参与者被要求评定他们的满意程度,可以用不同满意度等级来判定。

1.1数据对象与属性类型1数据概念数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性包括区间标度和比率标度区间标度用相等的单位尺度进行度量。区间属性的值有序,可以分为正、零或负。因此,除了值的秩序之外,这种属性还允许人们比较和定量评估值之间的差。譬如天气的温度是区间标度属性。人们可以得到这些对象关于温度的排序,同时还可以量化比较不同值之间的差,比如昨天的温度20℃比前天的15℃高出5℃,这个差值是有含义的。比率标度是具有固有零点的数值属性。如果度量是比率标度的,则我们可以说一个值是另一个的倍数。比如职工的工作年限,甲的工作年限是10年,而乙的工作年限是5年,可以说甲是乙的两倍。

1.1数据对象与属性类型1数据概念除了标称、二元、序数和数值类型等属性类别外,通常还有离散和连续属性。在机器学习领域,分类算法通常把属性分成离散的或连续的。离散属性具有有限或无限个可数的值,可以用整数表示。例如对于二元属性取0和1,对于年龄属性取0到120。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性顾客编号在理论上无限的,但实际上的值集合是有限可数的。

1.2数据基本统计指标1数据概念基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点,主要包括数据的集中趋势和散布情况。从中心趋势度量开始,它度量数据分布的中心位置即某个属性的值大部分落在何处?包括均值、中位数、众数和中列数数据散布度量方法包括极差、四分位数、方差、标准差等,数据的离散程度也可以看成是数据的变异程度,变异程度可以放在几何空间来理解,是描述数值之间分散状况的测量指标

1.3数据相似与相异测量1数据概念在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,人们需要评估对象之间相似或差异程度。相似性性(similarity)和相

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档