大数据治理(高级) 课件 西财 实训项目1:期货数据预处理.pptx

大数据治理(高级) 课件 西财 实训项目1:期货数据预处理.pptx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1

实训1期货交易数据预处理2

知识点数据预处理概念数据读取与写入数据索引与切片数据清洗描述性统计方法3

实训目标了解数据预处理的概念与流程;掌握数据加载与写入的方法;掌握数据对象的索引和切片操作;掌握数据清洗的一般方法;理解常用统计指标的含义;4

知识点数据预处理概念数据读取与写入数据索引与切片数据清洗描述性统计方法5

数据预处理概念数据预处理(datapreprocessing)是指在进行数据分析、挖掘和可视化前对数据进行的一些必要处理方法。预处理数据清洗数据集成数据规约数据变换6

数据预处理概念数据清洗数据集成数据规约数据变换发现并纠正数据文件中可识别错误,清理“脏数据”。将不同来源、格式、结构的数据在逻辑或物理上有机集中。尽可能保持数据原貌的前提下,最大限度地精简数据量。对数据的数值、类型、单位进行转换以保证数据可用性。7

数据预处理概念准确性完整性一致性时效性有效性数据质量8

知识点数据预处理概念数据读取与写入数据索引与切片数据清洗描述性统计方法9

数据读取与写入文件是信息的载体,在将分散的数据保存在文件中后,我们需要通过适当的方法对其进行读取和写入。以下介绍Pandas从多种存储媒介读取以及将不同的数据结构写入不同格式文件的方法。文本文件表格文件数据库10

数据读取与写入CSV文件是一种纯文本文件,可以使用任何文本编辑器进行编辑,它支持追加模式,节省内存开销。11

数据读取与写入read_csv()方法的作用是将CSV文件的数据读取出来,转换成DataFrame对象展示。read_csv(filepath_or_buffer,sep=,,delimiter=None,header=infer,names=None,index_col=None,usecols=None,prefix=None,...)filepath_or_buffer:文件路径sep:指定使用的分隔符,默认用“,”分隔。header:指定第一行用来作为列名,前提是names=Nonenames:指定列名列表。当names没被赋值时,header会变成0,即选取数据文件的第一行作为列名。12

数据读取与写入to_csv()方法的功能是将数据写入到CSV文件中。to_csv(path_or_buf=None,sep=,,na_rep=,float_format=None,columns=None,header=True,index=True,index_label=None,mode=w‘,...)path_or_buf:文件路径。index:默认为True,若设为False,则将不会显示索引。sep:分隔符,默认用“,”隔开。13

数据读取与写入Excel文件也是比较常见的存储数据的文件,它里面均是以二维表格的形式显示的,可以对数据进行统计、分析等操作。Excel的文件扩展名有.xls和.xlsx两种。14

数据读取与写入read_excel(io,sheet_name=0,header=0,names=None,index_col=None,**kwds)io:表示路径对象。sheet_name:指定要读取的工作表,如:“Sheet1”。header:用于解析DataFrame的列标签。names:指定列名列表。to_excel(excel_writer,sheet_name=Sheet1,na_rep=,float_format=None,columns=None,header=True,index=True,...)excel_writer:表示读取的文件路径。index:表示是否写行索引,默认为True。15

数据读取与写入大多数情况下,海量的数据是使用数据库进行存储的,这主要是依赖于数据库的数据结构化、数据共享性、独立性等特点。Pandas?支持Mysql、Oracle、SQLite等主流数据库的读写操作。16

数据读取与写入以Mysql为例,read_sql()函数既可以读取整张数据表,又可以执行SQL语句。pandas.read_sql(sql,con,index_col=None,coerce_float=True,params=None,parse_dates=None,columns=None,chunksize=None)sql:表示被执行的SQL语句。con:接收数据库连接,表示数据库的连接信息。columns:从SQL表中选择列名列表。17

数据读取与写入to_sql()方法的功能是将Series或DataFrame对象以数据表的形式写入到数据库中。pandas.to_sql(name,con,schema=None,if_exists=f

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档