- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Pandas 是 Python 中最受欢迎的软件包之一,广泛用于数据操作。它是一个非
常强大且用途广泛的软件包,使数据清理和整理变得更加轻松愉快。
Pandas 库对 Python 社区做出了巨大贡献,它使 Python 成为数据科学和分析
领域的顶级编程语言之一。它已成为数据分析师和科学家进行数据分析和操
的首选。
什么是熊猫包?
Pandas 包具有许多功能,这些功能是数据处理和操作的本质。简而言之,它可
以为您执行以下任务——
1. 创建类似于 R 的数据框和 Excel 电子表格的结构化数据集。
2. 从 CSV、TXT、XLSX、SQL 数据库、R 等各种来源读取数据。
3. 从数据集中选择特定的行或列
4. 按升序或降序排列数据
5. 根据某些条件过滤数据
6. 按分类变量汇总数据
7. 将数据重塑为宽格式或长格式
8. 时间序列分析
9. 合并和连接两个数据集
10.遍历数据集的行
11.以 CSV 或 Excel 格式写入或导出数据
数据集:
在本教程中,我们将使用两个数据集:income和iris。
1. income data : 该数据包含各米国各州从 2002 年到 2015 年的收入。
该数据集包含 51 个观测值和 16 个变量。下载链接
2. iris 数据:它包含 150 个观测值和 5 个变量。我们有 3 种花(每
种 50 朵花),所有花的萼片长度和宽度以及花瓣长度和宽度都已给
出。下载链接
要记住的重要熊猫功能
以下是常见任务以及 pandas 函数的列表。
公用事业 功能
提取列名称 df.列
选择前 2 行 df.iloc[:2]
选择前 2 列 df.iloc[:,:2]
按名称选择列 df.loc[:,[col1,col2]]
选择随机编号 行数 df.样本(n = 10)
选择随机行的分数 df.sample(frac = 0.2)
重命名变量 df.重命名()
选择一列作为索引 df.set_index()
删除行或列 df.drop()
排序值 df.sort_values()
分组变量 df.groupby( )
过滤 df.查询()
查找缺失值 df.isnull( )
删除缺失值 df.dropna( )
删除重复项 df.drop_duplicates()
创建假人 pd.get_dummies( )
排行 df.rank( )
累计金额 df.cumsum( )
分位数 df.分位数()
选择数值变量 df.select_dtypes()
连接两个数据帧 pd.concat()
基于公共变量合并 pd.合并()
导入熊猫库
您需要先导入或加载 Pandas 库才能使用它。 “Importing a library”就是把
它加载到内存中,然后你就可以使用它了。运行以下代码导入 pandas 库:
import pandas as pd
“pd”是别名或缩写,将用作访问或调用 pandas 函数的快捷方式。要访问
pandas 库中的函数,您只需在每次需要应用时键入 pd.function 而不是
pandas.function 。
导入数据集
要从 CSV 文件读取或导入数据,可以使用 read_csv() 函数。在该函数中,您
需要指定 CSV 文件的文件位置。
income = pd.read_csv(C:\\Users\\Hp\\Python\\Basics\\income.csv)
Index State Y2002 Y2003 Y2004 Y2005 Y2006
Y2007 \
0 A Alabama 1296530 131771
文档评论(0)