- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目三 大数据采集处理与挖掘
任务一 大数据采集
子任务一 报表采集
➢ 作业及思考
1.选择任一企业,在金蝶大数据处理平台从东方财富网站中爬取 2019 和 2020 年两年的
利润表数据做对比。
➢ 参考答案
1.以招商银行为例,招商银行的企业代码(完整股票代码)为 sh600036。
在“大数据采集”下的“财务报表”页面中,选择数据源为“东方财富”。参数中填写
年份“2019,2020”,报表类型选择“利润表”,企业代码(完整股票代码)填写“sh600036”。
点击【运行】,运行完成后查看数据结果并下载 excel 文件。
子任务二 电商平台评论的采集
➢ 作业及思考
1.获取唯品会上其他任一商品的全部历史评价数据,最热的评论排在最前面。
➢ 参考答案
1. 以小米体脂称为例,获取需要分析的爆款产品在唯品会网站上的产品查看链接为:
/detail-1711297312-6918849116177740352.html
在“大数据采集”下的“电商平台评论数据”页面中,选择数据源为“唯品会”。
参数中填写商品链接为前面查询到的产品链接,评论页数不填写(默认为全部页数),
每页评论数选择“30”,按点赞数排序选择“降序”。
点击【运行】,运行完成后查看数据结果并下载 excel 文件。
任务二 大数据处理
子任务一 数据清洗
➢ 作业及思考
1.在以上任务的基础上,删除字段“商品价格”、“商品编号”、“评论标签”和“#”,
并将商品名称统一改成“2020 款 iPad”。
2.删除“匿名 vip 用户”的评论数据。
➢ 参考答案
1.在“大数据处理”下的“数据清洗”页面中,将任务二-子任务一中下载的文件上传。
配置清洗规则:
去除多余数据:选择“局部清洗”并选择“列删除”,单击规则右侧的“加号”,
勾选准备删除的字段“商品价格”、“商品编号”、“评论标签”和“#”,并单
击右上角【选择】。
字符替换:选择“局部清洗”并选择“字符替换”。单击规则右侧的“加号”,勾
选准备替换的字段“商品名称”,并单击右上角【选择】,输入需要替换的字符和
替换的字符,即分别填入“2020 款 iPad 10.2 英寸【壳膜套餐】WLAN 版 平板电脑”
和“2020 款 iPad”。
配置完成后,点击【执行清洗】。
2.点击【添加规则】,选择“局部清洗”并选择“行删除”。单击规则右侧的“加号”,勾
选字段“用户名称”,并单击右上角【选择】。在后方输入“匿名 vip 用户”,点击【执行
清洗】,即可删除用户名称为匿名 vip 用户的行。
子任务二 数据缺值补全
➢ 作业及思考
1.导入“销售订单”表,文件见附件 3-1,对“单据编号”字段中的空缺值进行插补,
要求格式相同且不与其他单据编号重复。
附件 3-1 “销售订单”表
➢ 参考答案
1. 在“大数据处理”下的“数据清洗”页面中,上传文件“销售订单”表,选择数据
源为之前上传的数据源。点击两次【下一步】,进入“缺失值插补步骤”。在“数据预览”
区域观察表中空缺值,发现只有“单据编号”字段中有一个空缺值。
因此选择“为空缺值插补”并点击右侧“…”,选择要进行空缺值插补的字段“单据编
号”,并单击右上角 【选择】。插补要求选择为“默认值补缺”,默认值填写格式为“XSDD-
六个数字(六个数字不与其他单据编号重复)”,此处以填入“XSDD-875473”为例。
点击【执行插补】,运行完成后可在数据预览区看到插补成功后的结果。
子任务三 数据转化
➢ 作业及思考
1.使用“电商平台评论数据-唯品会-数据”,将其中“发表时间”字段的日期格式统
一改为“yy/mm/dd”。
➢ 参考答案
1. 在“大数据处理”下的“数据转换”页面中,选择数据源为已经上传过的“电商平
台评论数据-唯品会-数据”,点击【下一步】。
在“数据转换”步骤中配置清洗规则,点击【添加规则】,选择“日期格式转换”,单
击右侧的“加号”,选择字段“发表时间”,格式要求选择为“yy/mm/dd”。
点击【执行转换】后,可在“数据预览”区域预览执行结果并下载
您可能关注的文档
最近下载
- 电子电路与系统基础II(李国林)X006 12 第六讲习题课 电容电感性质习题课.pdf VIP
- 电动三轮车培训.pptx VIP
- 电子电路与系统基础II(李国林)S012 理论课第12讲 阻抗匹配网络.pdf VIP
- 工程伦理案例分析.docx VIP
- 统编版(2024)七年级历史上册第6课《战国时期的社会变革》课件.pptx VIP
- 电子电路与系统基础II(李国林)S005 09 第五讲理论课 向量法.pdf VIP
- 宜家 吸顶灯 RANARP 勒纳普 吊灯 003.909.52 安装指南.pdf
- 电子电路与系统基础II(李国林)S002 03 第二次理论课 运放应用.pdf VIP
- 工程伦理学习心得体会.docx VIP
- 工程伦理学学习心得.docx VIP
文档评论(0)