Python数据分析与可视化典型项目实战(微课版)课件 模块三 房源数据分析.pptx

Python数据分析与可视化典型项目实战(微课版)课件 模块三 房源数据分析.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

模块三房源数据分析Python数据分析与可视化典型项目实战(微课版)

【任务描述】Excel文件“house.xlsx”共有3万多行、14列数据,列名分别为:产权、关注、区域、单价、小区、年限、总价/万元、户型、房屋编码、挂牌时间、朝向、楼层、装修情况、面积。(其中,关注为关注数量的简称。)其中“朝向”列数据有67种,“户型”列数据有42种,“区域”列数据有14种,“装修情况”列数据有4种,这些数据后期需要进行清洗、整理和提取数值特征。数据清洗建议如下。【任务实现】在JupyterNotebook开发环境中创建tc03-01.ipynb,然后在单元格中编写代码并输出对应的结果。【任务3-1】杭州市在售房源数据分析与可视化

杭州市在售房源数据分析与可视化1.导入模块与读取数据导入模块importdatetimeimportcalendarimportbrewer2mplimportcollectionsfromjiebaimportpossegaspsgimportwarningswarnings.filterwarnings(ignore)读取数据并进行浏览house_df=pd.read_excel(rdata\house.xlsx)data=house_df.copy()#浏览数据data.head()

杭州市在售房源数据分析与可视化2.数据预处理检查缺失值总数量data.isnull().values.sum()处理“区域”列数据deflocation(x):if临安inx:return临安市elif上城inx:return上城区elif下城inx:return下城区elif江干inx:return江干区elif拱墅inx:return拱墅区elif西湖inx:return西湖区elif滨江inx:return滨江区elif萧山inx:return萧山区elif余杭inx:return余杭区elif富阳inx:return富阳区elif钱塘inx:return钱塘新区else:return其他data[地理位置]=data[区域].apply(location)检查各列缺失值情况data.isnull().sum()删除缺失值data.dropna(how=any,inplace=True)处理“产权”列数据data=data.loc[data[产权]!=未知]

杭州市在售房源数据分析与可视化处理“单价”列数据data[单价].head()查看各区在售房源总数量的代码如下:data[地理位置].value_counts()以下3种方法都可以去掉单位“元/平方米”提取单价数字。方法1:使用正则表达式取出其中的数字。data[单价]=data[单价].apply(lambdax:str(x)).str.findall((\d+)).str[0].astype(float)方法2:使用“元”字进行字符串分隔。data[单价]=data[单价].str.split(元).str[0]data[单价]=data[单价].astype(int64)方法3:使用“元”字在“单价”列中的位置获取单价数字。data[单价]=data[单价].str[:-5].astype(float32)

杭州市在售房源数据分析与可视化处理“年限”列数据data[起建时间]=data[年限].str.split(/).str[0]data[建筑类型]=data[年限].str.split(/).str[1]浏览“建筑类型”列唯一值,代码如下:data[建筑类型].unique()输出结果:array([板楼,板塔结合,塔楼,暂无数据,平房],dtype=object)去掉起建时间为“未知年建”和“建筑类型”为“暂无数据”的房源,代码如下:data=data.loc[(data[起建时间]!=未知年建)(data[建筑类型]!=暂无数据)]获取“起建时间”年份数字的代码如下:data[起建时间]=data[起建时间].str.extract((\d+)).astype(int)计算“楼龄”并增加“楼龄”列的代码如下:data[楼龄]=2022-data[起建时间]

杭州市在售房源数据

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档