- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
·1·
第五章数据处理和可视化表达
网络购物平台客户行为数据分析报告
——以网络购物平台零食销售数据分析为例
一、引言
随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的速度增长。海量的数据几乎包含一切形式的结构化、半结构化以及非结构化的数据,如网络日志、音频、视频、图片、地理位置信息等。如何高效地对这些数据进行采集、存储、处理,并从中发掘到有价值的信息,是大数据分析处理需要解决的问题。
二、分析目的
在日常工作,生活和学习中,大数据已成为人们提取信息、做出决策的重要依据。大数据分析,使得商家可以通过分析网络购物平台客户的行为数据,如客户购物订单中包含的商品,客户的购物行为特征、消费特征等数据,为商品的区域摆放、捆绑销售等决策提供依据,甚至根据客户的购物喜好,为客户提供个性化需求或服务,以提升市场的占有率。
通过完成“网络购物平台客户行为数据分析和可视化表达”项目,认识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数据,完成分析报告;理解对数据进行保护的意义。
三、数据需求
1.零食销售数据
包括零食名称(title)、店铺名称(store)、零食价格(price)、零食订单量(paynum)等数据。
·2·
2.客户订单数据
包括客户订单中商品名称等数据。
3.客户消费特征数据
包括客户年龄、平均每次消费金额、平均消费周期(天)等数据。4.客户购物行为特征数据
包括客户身高、体重、年龄以及客户属性等数据。
四、数据采集
1.确定数据来源
项目所需的零食销售数据、客户订单数据、客户消费特征数据、客户购物行为特征数据等,来源于网络购物平台。
2.数据的采集
通过网络数据采集法,利用Python爬虫程序等工具从网络购物平台采集零食销售数据、客户订单数据、客户消费特征数据以及客户购物行为特征数据。
爬虫程序采集零食销售数据关键代码如下所示。
·3·
爬虫程序运行关键过程如下。
请
请输入要搜索的商品名称:零食
请输入想要搜索的商品页数:100
爬取到3036条商品数据
写入excel表格成功!
爬虫程序采集零食销售数据如图5-1所示。
图5-1采集零食销售数据
3.数据的保存管理
项目数据都来自网络购物平台的非隐私数据,可以保存在本地电脑或数据库中,以便数据分析时使用,还可以通过云盘等方式把数据分享给小组成员或他人,实现数据共享。
五、数据分析和可视化表达
1.数据分析
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模
·4·
型评价等。
(1)特征探索。大数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
零食销售数据特征探索过程如下。
①使用XAMPP建站集成软件创建零食销售数据数据库datas,数据如图5-2所示。
图5-2使用XAMPP建站集成软件创建零食销售数据库datas
②运行“程序5-4-2商品销售数据特征探索.py”,连接数据库程序代码如下所示。
conn=pymysql.connect(host=127.0.0.1,user=root,passwd=,db=datas)
conn=pymysql.connect(host=127.0.0.1,user=root,passwd=,db=datas)sql=select*fromdatas
data=pda.read_sql(sql,conn)
③程序运行过程中依次生成数据清洗前的散点图,异常数据处理后的散点图,价格直方图、销量直方图,如图5-3所示。
·5·
图5-3运行结果
特征探索的结果:从散点图中可以看到,经过异常数据处理后的散点图数据分布比较均匀;从价格直方图可以看到,价格区间在8~24的零食种类比较多;从销量直方图可以看到,销量在2000的零食种类占比大。
(2)关联分析。关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
客户订单中商品关联分析如图5-4所示,图左部分为客户订单中包含的商品名称,图右部分为关联分析结果。
图5-4订单商品名称和关联分析结果
·6·
关联分析程序关键代码如下:
data
data=pd.read_excel(orders.xls,header=None)
#导入文件orders.xls中的数据
ct=lambdax:pd.Series(1,index=x[pd.notnull(x)])
#转换0-1矩阵的过渡函数
b=map(ct,
您可能关注的文档
- 第三章 信息系统的网络组建 设计智能家居系统(项目范例成果报告).doc
- 第四章 信息系统的软件与应用 搭建网络学习管理系统(项目范例成果报告).doc
- 第五章 信息系统的安全风险防范 校园网络信息系统的安全风险防范(项目范例成果报告).doc
- 第一章 走进信息社会 计算机技术发展及其影响的调查(项目范例成果报告).doc
- 3.1《认识在线社会》学习单.docx
- 第2课 《抽象与建模》学习单.docx
- 第二章 信息系统的组成与功能 剖析网络订票系统(项目范例成果报告).docx
- 高中信息技术1.3数据科学与大数据作业.docx
- 高中信息技术2.1.1解决问题的一般过程作业.docx
- 高中信息技术2.1.2用计算机解决问题的过程作业.docx
文档评论(0)