人民大2024《大数据分析：基于Python》PPT第7章.pptx

下载文档

0
0
约1.44万字
约 51页
2024-08-27 发布于广东
举报
版权申诉
保障服务

人民大2024《大数据分析：基于Python》PPT第7章.pptx

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;在数据分析过程中，据不完全统计，百分之七八十的工作量都是在做数据清洗，即数据处理成所需要的数据形式和格式。所以数据处理对于数据分析来说是至关重要的。只有当数据被正确地清洗和处理之后，才能确保分析结果的准确性和可靠性。如果数据中存在错误、重复、缺失或不一致的情况，那么分析结果可能会出现偏差，甚至误导决策。

数据处理包括多个步骤，例如数据收集、数据清洗、数据转换和数据规范化等。其中，数据清洗是最耗费时间和精力的一步，因为它涉及到查找和修复数据中的错误和不一致，处理缺失值和重复数据，以及检查数据的格式和类型等。

在数据清洗过程中，需要使用各种技术和工具，例如数据筛选、排序、查找和替换、正则表达式等，以确保数据的质量和可靠性。此外，还需要了解数据的来源和特点，以便更好地理解和处理数据。;7.1.1异常值处理

异常值处理包括重复值和缺失值以及离群点的处理，尤其对缺失值的处理要谨慎。当数据量较大时，并且在删除缺失值时不影响结论时，可以删除，当数据量较少时，删除后可能会影响数据分析的结果时，最好对缺失值进行填充。以下是一些常见的异常值处理方法。

在处理异常值时，一定要考虑到数据的整体分布和业务背景，避免盲目处理导致数据失真或者误导分析结果。;如果仅仅是删除重复值，第一步用duplicated()返回布尔值可以省略。显示重复值duplicated()函数格式如下：

duplicated(self,subset=None,keep=first)

其中参数解释如下：

subset：用于识别重复的列标签或列标签序列，默认所有列标签

keep=‘frist’：除了第一次出现外，其余相同的被标记为重复

keep=last：除了最后一次出现外，其余相同的被标记为重复

keep=False：所有相同的都被标记为重复;In[2]:df.duplicated()

#返回逻辑值，重复的行（第二次出现）显示True

Out[2]:

0False

1False

2False

3False

4True

dtype:bool

In[3]:df[df.duplicated()]#显示重复行

Out[3]:

agename

485John

In[4]:df.duplicated(name)

Out[4]:

0False

1False

2False

3False

4True

dtype:bool;2．缺失值处理

从统计上说，缺失的数据可能会产生有偏估计，从而使样本数据不能很好地代表总体，而现实中绝大部分数据都存在缺失值，因此如何处理缺失值很重要。

一般说来，缺失值的处理包括两个步骤，即缺失数据的识别和缺失值处理。

(1)缺失数据的识别

pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据，并使用.isnull()和.notnull()函数来判断缺失情况。;In[2]:df.isnull().tail()

Out[2]:

学号班级姓名性别英语体育军训数分高代解几

16FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

17FalseFalseFalseFalseFalseFalseFalseFalseTrueFalse

18FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

19FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

20FalseFalseFalseFalseFalseFalseFalseFalseFalseFalse

;(2）缺失数据的处理

对于缺失数据的处理方式有数据填充、删除对应行、不处理等方法。

1dropna()：对数据结构中有值为空的行进行删除

删除数据中有空值所对应的行。;2df.fillna()：用其它数值填充NaN

有时空值直接删除会影响分析的结果，可以对空值进行填补。如使用数值或者任意字符替代缺失值。;In[6]:df.fillna(method=pad)

Out[6]:

学号班级姓名性别英语体育军训数分高代解几

02308024241成龙男767.8

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

内容提供者

知识共享

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人民大2024《大数据分析：基于Python》PPT第7章.pptx