- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
你们好
第八章 基于关联规则的购物篮分析
2
一、什么是关联规则
主要是描述一组数据属性之间的密切度或关联程度。分析结果是一组指定商品之间关系模式的关联规则。关联规则是无监督的,所以无需训练算法和提前标识数据。
如:美国沃尔玛超市的数据分析人员在做数据分析的时候发现,每到周末同时购买啤酒和尿不湿的人较平时增加很多。他们对数据进行了进一步挖掘并且走访了很多同时购买这两样商品的顾客,他们发现这些顾客有几个共同的特点:
一般是周末出现这种情况:
3
购买者以已婚男士为主
他们家中有孩子且不到两岁,有尿不湿的刚需
他们喜欢看体育比赛节目,并且喜欢边喝啤酒边看。顾客有喝啤酒的需求
周末是体育比赛扎堆的日子,所以出现这种关联销售多在周末的时候。
发现这个秘密后,于是超市就大胆的将啤酒放在尿不湿旁边陈列,让这些顾客购买起来更方便。实验结果发现二者的销售量都大幅度的提升。这是一个典型的利用关联销售提升业绩的案例。
4
例如 {花生酱,果冻}→{面包}。购买前两种就极有可能购买面包。
关联规则总是由项集的子集组成,通过将规则左项(条件项)(LHS)的一个项集与规则右项(结果项)(RHS)的另一个项集联系起来。
5
LHS:表示为了触发规则需要满足的条件
RHS:表示满足条件后的预期结果。
{花生酱,果冻}→{面包}
一般,关联规则可以应用的场景有:
优化货架商品摆放或者优化邮寄商品的目录
交叉销售或者捆绑销售
搜索词推荐或者识别异常
6
二、概念
项:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶
项集:包含若干个项的集合,一般会大于0个,如{花生酱,果冻}
支持度:项集X在总项集中出现的概率。
N:数据库中交易次数
count(X):表示包含项集X的交易次数。
7
置信度:交易中项或者项集X的出现导致项或者项集Y出现的比例。即在先决条件X发生的条件下,由关联规则{X-Y }推出Y的概率
频繁项集:某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。
提升度(lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比。
8
如:{慰问卡,鲜花}的支持度=3/5=0.6
{鲜花}→{慰问卡}的置信度=0.6/0.8=0.75
{慰问卡}→{鲜花}的置信度=0.6/0.6=1
9
假如有一条规则:牛肉—鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。
S表示所有的顾客,而A表示买了牛肉的顾客,B表示买了鸡肉的顾客,C表示既买了牛肉又买了鸡肉的顾客。那么C.count/S.count=3/7,C.count/A.count=3/4。。
10
提升度示例:
1000名顾客,购买年货,A组有500人购买茶叶,有450人购买咖啡;B组有0人购买茶叶,有450人购买咖啡。
茶叶-咖啡的支持度=450/1000=45%
茶叶-咖啡的置信度=45%/(500/1000)=90%
茶叶-咖啡的提升度=90%/(900/1000)=1
11
由于lift(茶叶X-咖啡Y)=1,所以说明X与Y相互独立,即是否有X对于Y的出现没有影响。虽然支持度和置信度都高,但它们之间没有必然的关联关系。
满足最小支持度和最小置信度的关联关系叫做强关联关系
如果lift1,叫做有效的强关联关系,
如果lift=1,叫做无效的强关联关系
特别的如果lift(X-Y)=1,则称X与Y相互独立
12
三、Apriori算法:
现实中,许多潜在的商品组合极少,不是一个一个地评估集合的每一个元素。例如:如一个商店同时销售汽车产品和化妆品,但{机油,口红}这两个物品的组合就可能很少,忽略类似组合,就可以限制规则的搜索范围,该算法采用一个简单的先验信念作为准则来减少关联规则的搜索空间:一个频繁项集(集合)的所有子集也是频繁的。比如,如果{机油,口红}是频繁的,那么当且仅当机油,口红都是频繁的。如果只要其中一个是非频繁的,那么任意一个含有这两项的集合都可以从搜索中排除。
13
使用关联规则的过程主要包含以下三个步骤:
(1)根据支持度(support),从事务集合中找出频繁项集。
(2)根据置信度(confidence),从频繁项集中找出强关联规则(置信度阈值需要根据实验或者经验而定)
(3)根据提升度(lift),从强关联规则中筛选出有效的强关联规则
14
Apriori算法的核心思想:
频繁集的子集一定是频繁的
非频繁集的超集一定是非频繁的
创建规则的过程:
识别所有满足最小支持度阈值的项集。
使用那些满足最小置信度阈值的项集来创建规则。
15
16
Apriori算法的优缺点:
优点:
能够处理大量的事
文档评论(0)