- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;导语;学习目标;目录;第一节新媒体数据处理的基本原理;一、什么是数据处理;二、数据处理的基本流程;三、通用的新媒体数据处理方法;第二节数据清洗;一、剔除重复数据;(一)查找重复项;1.条件格式法;2.函数法;3.高级筛选法;4.数据透视表法;(二)删除重复项;1.菜单删除重复项;2.排序删除重复项;3.条件格式删除重复项;4.筛选删除重复项;(三)利用Python处理重复数据;二、填补缺失数据;(一)缺失值为空值;处理缺失值的方法一般有3种:
(1)样本平均值替代法。用一个样本统计量的值代替缺失值。最典型的做法就是使用该变量的样本平均值代替缺失值。例如一组销量数据中有缺失值,就可以使用评价销量来进行替换。
(2)模型计算值替代法。用一个统计模型计算出来的值去代替缺失值,常使用的模型有回归模型、判别模型等,例如连续时间段内公众号粉丝增长的数据中有缺失值???可以通过数据预测回归分析法,计算出数值替代缺失值。
(3)删除缺失值法。当数据量足够大,且缺失值较数量不是太多,且变量之间不存在高度相关的情况下,可以对缺失值做删除处理。;(二)缺失值为错误标识符;(三)利用Python处理缺失数据;三、修正错误数据;(一)函数检查法;使用IF函数不仅可以判断数字型数据是否符合特定的要求,还可以判断非数字型数据是否符合要求,例如,一张微博粉丝用户信息表中,“性别”一栏的值中出现了“南”、“32”等非性别数据,如果数据量少可以人工检测,如果数据量过大,使用IF函数很快就能找出数据表中出现错误的全部数据。;(二)条件格式法;(三)利用Python处理错误数据;(三)利用Python处理错误数据;四、规范数据格式;(一)数值格式规范;(二)日期格式规范;(三)利用Python处理数据格式;五、数据清洗常用函数;第三节数据加工;一、数据转换;(一)行列互换;(二)记录方式转换;(三)利用Python进行数据转换;二、数据计算;(一)简单计算;(一)简单计算;(二)函数计算;(三)利用Python进行数据计算;三、数据分组;Excel是通过运用VLOOKUP函数实现快速分组的。VLOOKUP函数是Excel中一个纵向查找函数,可以用来返回数据所在???组的名称。其功能是按列查找,最终返回该列所需查询序列所对应的值。
VLOOKUP函数的语法为:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup);四、数据重组;(一)数据拆分;(二)数据合并;(三)数据抽取;五、数据排序;(一)基础排序;(二)自定义排序;(三)利用Python进行排序;第四节数据透视表的使用;数据透视表是一种类似于数据分组的操作方法,常见于Excel与类似的表格应用中。数据透视表是将每一列作为输入,输出将数据不断细分为多个维度累计信息的二维数据表。
数据透视表(PivotTable)是一种交互式的表。之所以称为数据透视表,是因为一张数据透视表仅靠鼠标拖动字段位置,就可以动态地改变它的版面布局,变换出各种类型的分析报表,以便按照不同方式展示数据特征。使用时只需指定所需分析的字段、数据透视表的组织形式,以及要计算的类型(求和、计数、平均、方差等)。如果原始数据发生更改,则可以刷新数据透视表来更改汇总结果。;一、数据透视表的创建;(二)Excel中创建数据透视表;(三)Python中创建数据透视表;二、数据透视表的使用技巧;(一)计算百分比;(二)计算同比或环比;(三)分组统计;三、数据透视表的应用;习题;实践任务;案例讨论;参考资料
您可能关注的文档
- 《婴幼儿心理发展》课件——第六章 学前儿童记忆的发展.pptx
- 《婴幼儿心理发展》课件——第九章 学前儿童言语的发展.pptx
- 《新媒体数据分析》课件——第8章 新媒体数据分析的高级应用.pptx
- 《新媒体数据分析》课件——第7章 新媒体数据分析的基础应用.pptx
- 《新媒体数据分析》课件——第6章 新媒体数据报告的撰写.pptx
- 《新媒体数据分析》课件——第5章 新媒体数据的可视化呈现.pptx
- 《新媒体数据分析》课件——第4章 新媒体数据的分析.pptx
- 《新媒体数据分析》课件——第2章 新媒体数据的采集.pptx
- 《新媒体数据分析》课件——第1章 新媒体数据分析概述.pptx
- 《物联网设备装调与维护》课件——第1章 物联网行业基础应用概述.pptx
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)