3-大数据采集处理与挖掘作业及参考答案[9页].pdfVIP

3-大数据采集处理与挖掘作业及参考答案[9页].pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目三 大数据采集处理与挖掘 任务一 大数据采集 子任务一 报表采集 ➢ 作业及思考 1.选择任一企业,在金蝶大数据处理平台从东方财富网站中爬取 2019 和 2020 年两年的 利润表数据做对比。 ➢ 参考答案 1.以招商银行为例,招商银行的企业代码(完整股票代码)为 sh600036。 在“大数据采集”下的“财务报表”页面中,选择数据源为“东方财富”。参数中填写 年份“2019,2020”,报表类型选择“利润表”,企业代码(完整股票代码)填写“sh600036”。 点击【运行】,运行完成后查看数据结果并下载 excel 文件。 子任务二 电商平台评论的采集 ➢ 作业及思考 1.获取唯品会上其他任一商品的全部历史评价数据,最热的评论排在最前面。 ➢ 参考答案 1. 以小米体脂称为例,获取需要分析的爆款产品在唯品会网站上的产品查看链接为: /detail-1711297312-6918849116177740352.html 在“大数据采集”下的“电商平台评论数据”页面中,选择数据源为“唯品会”。 参数中填写商品链接为前面查询到的产品链接,评论页数不填写(默认为全部页数), 每页评论数选择“30”,按点赞数排序选择“降序”。 点击【运行】,运行完成后查看数据结果并下载 excel 文件。 任务二 大数据处理 子任务一 数据清洗 ➢ 作业及思考 1.在以上任务的基础上,删除字段“商品价格”、“商品编号”、“评论标签”和“#”, 并将商品名称统一改成“2020 款 iPad”。 2.删除“匿名 vip 用户”的评论数据。 ➢ 参考答案 1.在“大数据处理”下的“数据清洗”页面中,将任务二-子任务一中下载的文件上传。 配置清洗规则:  去除多余数据:选择“局部清洗”并选择“列删除”,单击规则右侧的“加号”, 勾选准备删除的字段“商品价格”、“商品编号”、“评论标签”和“#”,并单 击右上角【选择】。  字符替换:选择“局部清洗”并选择“字符替换”。单击规则右侧的“加号”,勾 选准备替换的字段“商品名称”,并单击右上角【选择】,输入需要替换的字符和 替换的字符,即分别填入“2020 款 iPad 10.2 英寸【壳膜套餐】WLAN 版 平板电脑” 和“2020 款 iPad”。 配置完成后,点击【执行清洗】。 2.点击【添加规则】,选择“局部清洗”并选择“行删除”。单击规则右侧的“加号”,勾 选字段“用户名称”,并单击右上角【选择】。在后方输入“匿名 vip 用户”,点击【执行 清洗】,即可删除用户名称为匿名 vip 用户的行。 子任务二 数据缺值补全 ➢ 作业及思考 1.导入“销售订单”表,文件见附件 3-1,对“单据编号”字段中的空缺值进行插补, 要求格式相同且不与其他单据编号重复。 附件 3-1 “销售订单”表 ➢ 参考答案 1. 在“大数据处理”下的“数据清洗”页面中,上传文件“销售订单”表,选择数据 源为之前上传的数据源。点击两次【下一步】,进入“缺失值插补步骤”。在“数据预览” 区域观察表中空缺值,发现只有“单据编号”字段中有一个空缺值。 因此选择“为空缺值插补”并点击右侧“…”,选择要进行空缺值插补的字段“单据编 号”,并单击右上角 【选择】。插补要求选择为“默认值补缺”,默认值填写格式为“XSDD- 六个数字(六个数字不与其他单据编号重复)”,此处以填入“XSDD-875473”为例。 点击【执行插补】,运行完成后可在数据预览区看到插补成功后的结果。 子任务三 数据转化 ➢ 作业及思考 1.使用“电商平台评论数据-唯品会-数据”,将其中“发表时间”字段的日期格式统 一改为“yy/mm/dd”。 ➢ 参考答案 1. 在“大数据处理”下的“数据转换”页面中,选择数据源为已经上传过的“电商平 台评论数据-唯品会-数据”,点击【下一步】。 在“数据转换”步骤中配置清洗规则,点击【添加规则】,选择“日期格式转换”,单 击右侧的“加号”,选择字段“发表时间”,格式要求选择为“yy/mm/dd”。 点击【执行转换】后,可在“数据预览”区域预览执行结果并下载

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档