Python 数据操作教程（最佳Pandas教程通过 50 个示例学习).pdf

下载文档

0
0
约2.97万字
约 25页
2023-10-15 发布于河南
举报
版权申诉
保障服务

Python 数据操作教程（最佳Pandas教程通过 50 个示例学习).pdf

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Pandas 是 Python 中最受欢迎的软件包之一，广泛用于数据操作。它是一个非常强大且用途广泛的软件包，使数据清理和整理变得更加轻松愉快。 Pandas 库对 Python 社区做出了巨大贡献，它使 Python 成为数据科学和分析领域的顶级编程语言之一。它已成为数据分析师和科学家进行数据分析和操的首选。什么是熊猫包？ Pandas 包具有许多功能，这些功能是数据处理和操作的本质。简而言之，它可以为您执行以下任务—— 1. 创建类似于 R 的数据框和 Excel 电子表格的结构化数据集。 2. 从 CSV、TXT、XLSX、SQL 数据库、R 等各种来源读取数据。 3. 从数据集中选择特定的行或列 4. 按升序或降序排列数据 5. 根据某些条件过滤数据 6. 按分类变量汇总数据 7. 将数据重塑为宽格式或长格式 8. 时间序列分析 9. 合并和连接两个数据集 10.遍历数据集的行 11.以 CSV 或 Excel 格式写入或导出数据数据集：在本教程中，我们将使用两个数据集：income和iris。 1. income data : 该数据包含各米国各州从 2002 年到 2015 年的收入。该数据集包含 51 个观测值和 16 个变量。下载链接 2. iris 数据：它包含 150 个观测值和 5 个变量。我们有 3 种花（每种 50 朵花），所有花的萼片长度和宽度以及花瓣长度和宽度都已给出。下载链接要记住的重要熊猫功能以下是常见任务以及 pandas 函数的列表。公用事业功能提取列名称 df.列选择前 2 行 df.iloc[:2] 选择前 2 列 df.iloc[:,:2] 按名称选择列 df.loc[:,[col1,col2]] 选择随机编号行数 df.样本（n = 10）选择随机行的分数 df.sample(frac = 0.2) 重命名变量 df.重命名（）选择一列作为索引 df.set_index() 删除行或列 df.drop() 排序值 df.sort_values() 分组变量 df.groupby( ) 过滤 df.查询（）查找缺失值 df.isnull( ) 删除缺失值 df.dropna( ) 删除重复项 df.drop_duplicates() 创建假人 pd.get_dummies( ) 排行 df.rank( ) 累计金额 df.cumsum( ) 分位数 df.分位数（）选择数值变量 df.select_dtypes() 连接两个数据帧 pd.concat() 基于公共变量合并 pd.合并（）导入熊猫库您需要先导入或加载 Pandas 库才能使用它。 “Importing a library”就是把它加载到内存中，然后你就可以使用它了。运行以下代码导入 pandas 库： import pandas as pd “pd”是别名或缩写，将用作访问或调用 pandas 函数的快捷方式。要访问 pandas 库中的函数，您只需在每次需要应用时键入 pd.function 而不是 pandas.function 。导入数据集要从 CSV 文件读取或导入数据，可以使用 read_csv() 函数。在该函数中，您需要指定 CSV 文件的文件位置。 income = pd.read_csv(C:\\Users\\Hp\\Python\\Basics\\income.csv) Index State Y2002 Y2003 Y2004 Y2005 Y2006 Y2007 \ 0 A Alabama 1296530 131771