- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;在数据分析过程中,据不完全统计,百分之七八十的工作量都是在做数据清洗,即数据处理成所需要的数据形式和格式。所以数据处理对于数据分析来说是至关重要的。只有当数据被正确地清洗和处理之后,才能确保分析结果的准确性和可靠性。如果数据中存在错误、重复、缺失或不一致的情况,那么分析结果可能会出现偏差,甚至误导决策。
数据处理包括多个步骤,例如数据收集、数据清洗、数据转换和数据规范化等。其中,数据清洗是最耗费时间和精力的一步,因为它涉及到查找和修复数据中的错误和不一致,处理缺失值和重复数据,以及检查数据的格式和类型等。
在数据清洗过程中,需要使用各种技术和工具,例如数据筛选、排序、查找和替换、正则表达式等,以确保数据的质量和可靠性。此外,还需要了解数据的来源和特点,以便更好地理解和处理数据。;7.1.1异常值处理
异常值处理包括重复值和缺失值以及离群点的处理,尤其对缺失值的处理要谨慎。当数据量较大时,并且在删除缺失值时不影响结论时,可以删除,当数据量较少时,删除后可能会影响数据分析的结果时,最好对缺失值进行填充。以下是一些常见的异常值处理方法。
在处理异常值时,一定要考虑到数据的整体分布和业务背景,避免盲目处理导致数据失真或者误导分析结果。;如果仅仅是删除重复值,第一步用duplicated()返回布尔值可以省略。显示重复值duplicated()函数格式如下:
duplicated(self,subset=None,keep=first)
其中参数解释如下:
subset:用于识别重复的列标签或列标签序列,默认所有列标签
keep=‘frist’:除了第一次出现外,其余相同的被标记为重复
keep=last:除了最后一次出现外,其余相同的被标记为重复
keep=False:所有相同的都被标记为重复;In[2]:df.duplicated()
#返回逻辑值,重复的行(第二次出现)显示True
Out[2]:
0False
1False
2False
3False
4True
dtype:bool
?
In[3]:df[df.duplicated()]#显示重复行
Out[3]:
agename
485John
?
In[4]:df.duplicated(name)
Out[4]:
0False
1False
2False
3False
4True
dtype:bool;2.缺失值处理
从统计上说,缺失的数据可能会产生有偏估计,从而使样本数据不能很好地代表总体,而现实中绝大部分数据都存在缺失值,因此如何处理缺失值很重要。
一般说来,缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。
(1)缺失数据的识别
pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据,并使用.isnull()和.notnull()函数来判断缺失情况。;In[2]:df.isnull().tail()
Out[2]:
学号班级姓名性别英语体育军训数分高代解几
16FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse
17FalseFalseFalseFalseFalseFalseFalseFalseTrueFalse
18FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse
19FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse
20FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse
?
;(2)缺失数据的处理
对于缺失数据的处理方式有数据填充、删除对应行、不处理等方法。
1dropna():对数据结构中有值为空的行进行删除
删除数据中有空值所对应的行。;2df.fillna():用其它数值填充NaN
有时空值直接删除会影响分析的结果,可以对空值进行填补。如使用数值或者任意字符替代缺失值。;In[6]:df.fillna(method=pad)
Out[6]:
学号班级姓名性别英语体育军训数分高代解几
02308024241成龙男767.8
您可能关注的文档
- 人民大2024传播学概论(第四版)教学ppt人类传播概述.pptx
- 人民大2024传播学概论(第四版)教学ppt大众传播的社会控制.pptx
- 人民大2024传播学概论(第四版)教学ppt传播学的诞生.pptx
- 人民大2024传播学概论(第四版)教学ppt人际传播.pptx
- 电子商务实务(第七版)(含活页实训手册) 教学PPT第三章 电子商务技术.pptx
- 电子商务实务(第七版)(含活页实训手册) 教学PPT第四章 电子支付.pptx
- 人民大2024《大数据分析:基于Python》PPT第6章.pptx
- 人民大2024《大数据分析:基于Python》PPT第3章.pptx
- 电子商务实务(第七版)(含活页实训手册) 教学PPT第五章 网络营销.pptx
- 人民大2024成本会计(第四版)PPT2.5 计算完工产品与月末在产品成本.pptx
文档评论(0)