- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
电信业客户流失分析
电信市场竞争比较激烈,挽留一个老客户能够带来很大的收益,,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种趋势。
数据表一:客户基本信息表(custinfo.csv)
customerID:客户编号;gender:性别;age:年龄;L_O_S:在网时间;tariff:话费方案;Handset:手机品牌;
表二:客户通话情况表的结构
Peak_calls:高峰时期电话数;peak_mins:高峰时期电话时长;offpeak_calls:低谷时期电话数;offpeak_mins:低谷时期电话时长;weekend_calls:周末时期电话数:weekend_mins:周末时期电话时长:international_mins:国际电话时长;Net_call_cost:国内电话时长;Month:月份;
表三:话费方案表
Tariff:话费类型;fixed_cost:固定费用;free_mins:免费时长;peak_rate:高峰时期单价;pffpeak_rate:非高峰时期单价;weekend_rate:周末单价;international_rate:国际长途单价
二、问题分析
根据已有的结果—流失客户,寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,将用户通话总话费求出,代表一个特征来描述客户。在综合数据求出一些派生的特征指标,例如高峰比率、低峰比率等。综合这些特征的指标,我们通过用“特征选择模型”,选出对流失客户影响大的指标,再用决策树将选出的指标进行分析可以得到这些指标对流失客户的具体影响。
三、模型的建立和求解
3.1数据预处理
1、数据理解
字段名称
指标解释
套餐类型
固定费用
每月需支付固定费用
免费时长
每月提供免费(国内)时长
高峰时费率
高峰时期每分钟话费(超过免费时长部分)
低谷时费率
低谷时期每分钟话费(超过免费时长部分)
周末时费率
周末时期每分钟话费(超过免费时长部分)
国际费率
国际长途电话每分钟话费
语音信箱
语信信箱收费(未用)
短信服务
短信服务收费(未用)
国内通话话费
=高峰+低谷+周末
2、数据预处理
根据所给数据分别计算出高峰平均每次通话时长、低峰平均每次通话时长、周末平均每次通话时长、国内通话总次数、国内通话总时长,进而求出国内平均每次通话时长以及全部时长、总费用,由国内通话费用=高峰+低谷+周末,得到总费用=国内通话费用+国际通话费用。
3.2模型建立
1、特征选择的算法:
为了缩小选择范围,可以使用特征选择算法来识别对某给定分析最为重要的字段
特征选择由以下三个步骤组成:
(1)删除不重要或有问题的输入、记录或个案(例如输入字段含有过多缺失值,或者输入字段的变异太大或太少而变得无用)。
(2)对剩余输入进行排序并根据重要性进行分级。主要运用Persron卡方统计量进行排序
(3)识别在后续模型中使用的功能子集,例如通过仅保留最重要的输入,过滤或排除所有其它输入。
Persron卡方统计量算法:
2、C5.0的算法
C5.0来处理数值型或分类型的资料,它的分类预测是基于逻辑的,即通过对输入变量取值的布尔比较实现对输出变量的分类预测,在众多的输出变量中选择一个当前最佳的分组变量,并从分组变量的众多取值中找到一个最佳的分割点,且为了清楚的表示分析结果,可用决策树(decisiontrees)或是if-then的关系显示.
C5.0模型基本算法
设是非标称属性集;是标称属性;是训练集;是决策树生成的函数:
//函数返回值类型为决策树
{
/*****************相关定义********************
*为属性的值;
*为的子集,分别包含属性的不同值;
******************************************************/
(为空)返回单一失败节点;
(包含的记录的标称属性值均相同)返回具有该标称属性值的单一节点;
(为空)返回用的最常见值赋值的单一节点;/*此时为出
错,记录没有被适当分类*/
在中找寻具有最大信息增益的属性;;
生成一棵以为根的树,分支为;
递归调用函数
3.3模型的求解
1、运用spssmodeler利用特征选择模型对合并后的数据进行重要性选择,选择对流失影响比较大的16个属性,整理成如下表(表一):
文档评论(0)