人民大2024《大数据分析:基于Python》PPT第7章.pptx

人民大2024《大数据分析:基于Python》PPT第7章.pptx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;在数据分析过程中,据不完全统计,百分之七八十的工作量都是在做数据清洗,即数据处理成所需要的数据形式和格式。所以数据处理对于数据分析来说是至关重要的。只有当数据被正确地清洗和处理之后,才能确保分析结果的准确性和可靠性。如果数据中存在错误、重复、缺失或不一致的情况,那么分析结果可能会出现偏差,甚至误导决策。

数据处理包括多个步骤,例如数据收集、数据清洗、数据转换和数据规范化等。其中,数据清洗是最耗费时间和精力的一步,因为它涉及到查找和修复数据中的错误和不一致,处理缺失值和重复数据,以及检查数据的格式和类型等。

在数据清洗过程中,需要使用各种技术和工具,例如数据筛选、排序、查找和替换、正则表达式等,以确保数据的质量和可靠性。此外,还需要了解数据的来源和特点,以便更好地理解和处理数据。;7.1.1异常值处理

异常值处理包括重复值和缺失值以及离群点的处理,尤其对缺失值的处理要谨慎。当数据量较大时,并且在删除缺失值时不影响结论时,可以删除,当数据量较少时,删除后可能会影响数据分析的结果时,最好对缺失值进行填充。以下是一些常见的异常值处理方法。

在处理异常值时,一定要考虑到数据的整体分布和业务背景,避免盲目处理导致数据失真或者误导分析结果。;如果仅仅是删除重复值,第一步用duplicated()返回布尔值可以省略。显示重复值duplicated()函数格式如下:

duplicated(self,subset=None,keep=first)

其中参数解释如下:

subset:用于识别重复的列标签或列标签序列,默认所有列标签

keep=‘frist’:除了第一次出现外,其余相同的被标记为重复

keep=last:除了最后一次出现外,其余相同的被标记为重复

keep=False:所有相同的都被标记为重复;In[2]:df.duplicated()

#返回逻辑值,重复的行(第二次出现)显示True

Out[2]:

0False

1False

2False

3False

4True

dtype:bool

?

In[3]:df[df.duplicated()]#显示重复行

Out[3]:

agename

485John

?

In[4]:df.duplicated(name)

Out[4]:

0False

1False

2False

3False

4True

dtype:bool;2.缺失值处理

从统计上说,缺失的数据可能会产生有偏估计,从而使样本数据不能很好地代表总体,而现实中绝大部分数据都存在缺失值,因此如何处理缺失值很重要。

一般说来,缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。

(1)缺失数据的识别

pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据,并使用.isnull()和.notnull()函数来判断缺失情况。;In[2]:df.isnull().tail()

Out[2]:

学号班级姓名性别英语体育军训数分高代解几

16FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

17FalseFalseFalseFalseFalseFalseFalseFalseTrueFalse

18FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

19FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

20FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

?

;(2)缺失数据的处理

对于缺失数据的处理方式有数据填充、删除对应行、不处理等方法。

1dropna():对数据结构中有值为空的行进行删除

删除数据中有空值所对应的行。;2df.fillna():用其它数值填充NaN

有时空值直接删除会影响分析的结果,可以对空值进行填补。如使用数值或者任意字符替代缺失值。;In[6]:df.fillna(method=pad)

Out[6]:

学号班级姓名性别英语体育军训数分高代解几

02308024241成龙男767.8

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档