利用Python进行数据分析之-数据加载.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“ ” “ ” 数据加载,存储与文件格式 1,读写文本格式数据: (read_csv,read_table,read_fwf,read_clipboard,open() to_csv,to_excel,write()) 2, JSON数据: (两个方法:json.loads() json.dumps()) 3,XML和HTML:WEB信息收集(两个接口lxml.html, lxml.objectify) 4,二进制数据格式(pickle函数,短期存储格式) 5,使用HTML和WEB API(requests包) 6,使用数据库 目录 读取文本格式数据 read_csv 从文件,url,文件型对象中加载带分隔符的数据,默认分隔符为逗号。 read_table 从文件,url,文件型对象中加载带分隔符的数据,默认分隔符为制表符(\t)。 read_fwf 读取定宽格式的数据,无分隔符 read_clipboard 读取剪贴板中数据 读取文本格式数据 pandas读取文件会自动推断数据类型,不用指定。 以read_csv为例,下面是常用的几个参数: 用 names重新规定列名,用index_col指定索引,也可以将多个列组合作为层次化索引。 可以编写正则表达式规定分隔符。 用skiprows跳过某些行。 缺失数据要么没有,要么用某个标记值表示,pandas常用NA、-1.#IND、NULL等进行标记。 用na_values用来不同的NA标记值。 Nrows 只读取几行 Chunksize:逐块读取文件 定义一个字典为各个列指定NA标记值,直接=null的就是把df中所有为空值的都标为null 跳过第3行 将数据写出到文本格式 1、利用data_frame的to_csv方法,可以将数据写到一个以逗号分隔的文件中,也可用sep参数指定分隔符,如 data.to_csv() 2、缺失值写入输出时会被表示为空字符串,可使用na_rep表示为别的标记值。 不添加后缀的话默认是一个file文件 data.to_csv(sys.stdout, sep=|) # 打印到屏幕 data.to_csv(sys.stdout, na_rep=NULL) # 空字符处显示为NULL data.to_csv(sys.stdout, index=False, header=False) # 禁用行和列的标签 data.to_csv(sys.stdout, cols=[a, b, c]) # 按照指定的顺序显示列 sys.stdout就相当于print,使用之前要import JSON数据 JSON数据已经成为通过http请求在wed浏览器和其他应用程序之间发送数据的标准格式之一,它是一种比表格型文本格式更灵活的数据格式。JSON非常接近于有效的python代码,基本类型都有对象,数组,字符串,数值,布尔型以及null。 Python形式 JSON格式 JSON格式 json.loads() json.dumps() Html基本信息 HTML 使用标记标签来描述网页 HTML 文档描述网页 保存为后缀名带.html打开就是一个网页 a href 超链接 XML和HTML:WEB信息收集 Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。 XML和HTML:WEB信息收集 Python有许多可以读写HTML和XML格式数据的库,lxml就是其中之一。 from lxml.html import parse from urllib.request import urlopen urllib2在python中是urllib.request from pandas.io.parsers import TextParser import pandas as pd parsed=parse(urlopen(‘/rank/capitalforsale.html’)) 打开url doc=parsed.getroot() 可以得到url里面所有的element print(---------doc-----------) print (doc) links=doc.findall(‘.//a’) 获取所有为 的超链接 lnk=links[3] 找到其中的一个

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档