R语言数据分析与挖掘-模型性能评估及优化.pptxVIP

R语言数据分析与挖掘-模型性能评估及优化.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模型性能评估 01102模型参数优化01 模型性能评估201 PAGE3模型性能评估3预测通常有两大应用场景:第一类是预测某指标的取值,也称为数值预测,数值预测模型性能评估主要通过均方误差、均方根误差、平均绝对误差等指标来评价;第二类是预测某事物出现的概率,也称为概率预测,对于二分类概率预测,常以混淆矩阵为基础,通过准确率率、覆盖率等指标,结合ROC曲线、KS曲线、提升图等可视化方法来评估模型性能。 PAGE4数值预测评估方法4? PAGE5数值预测评估方法5? PAGE6数值预测评估方法R语言实现6让我们利用mlbench扩展包中BostonHousing(波士顿房价)数据集为例,利用lm()函数建立以medv为因变量,其他特征为自变量的线性回归模型,并通过自定义函数,实现计算以上常见数值预测模型评估指标。实现代码如下: # 加载包,不存在就进行在线下载后加载 if(!require(mlbench)) install.packages(mlbench) data(BostonHousing) # 数据分区 library(caret) index - createDataPartition(BostonHousing$medv, + p = 0.75,list = FALSE) train - BostonHousing[index,] test - BostonHousing[-index,] # 利用训练集构建模型,并对测试集进行预测 set.seed(1234) fit - lm(medv ~ .,data = train) pred - predict(fit,newdata = test) # 自定义函数计算数值预测模型的评估指标 numericIndex - function(obs,pred){+ # 计算平均绝对误差MAE+ MAE - mean(abs(obs-pred))+ # 计算均方误差MSE+ MSE - mean((obs-pred)^2)+ # 计算均方根误差RMSE+ RMSE - sqrt(mean((obs-pred)^2))+ # 计算归一化均方误差+ NMSE - sum((obs-pred)^2)/(sum((obs-mean(obs))^2))+ # 计算判定系数Rsquared+ Rsqured - cor(pred,obs)^2+ # 返回向量形式+ return(c(MAE = MAE,MSE = MSE,RMSE = RMSE,NMSE = NMSE,Rsqured = Rsqured))+ } # 计算各指标度量值 numericIndex(test$medv,pred) MAE MSE RMSE NMSE Rsqured 3.4565308 26.6531431 5.1626682 0.3731474 0.6461423 PAGE7概率预测评估方法-混淆矩阵7概率是指事物出现的可能性,是对分类问题中某类出现概率的描述,本质上是分类问题(通过各类别出现的概率大小确定取某一类)。常用评估方法有:混淆矩阵、ROC曲线、KS曲线、累计提升图等。处理分类问题的评估思路,最常见的就是通过混淆矩阵,结合分析图表综合评价。??预测类别实际类别?101TPFN0FPTNTrue Positive(TP):指模型预测为正(1),并且实际上也的确是正(1)的观察对象的数量。True Negative(TN):指模型预测为负(0),并且实际上也的确是负(0)的观察对象的数量。False Positive(FP):指模型预测为正(1),但是实际上是负(0)的观测对象的数量。False Negative(FN):指模型预测为负(0),但是实际上是正(1)的观测对象的数量。 PAGE8概率预测评估方法-混淆矩阵8? PAGE9概率预测评估方法-混淆矩阵9? PAGE10概率预测评估方法-混淆矩阵案例10接下来,利用DAAG扩展包的数据集anesthetic为例进行演示。数据集来自于一组医学数据,其中变量conc表示麻醉剂的用量,move则表示手术病人是否有所移动,而我们用nomove做为因变量,研究的重点在于conc的增加是否会使nomove的概率增加。以下代码利用逻辑回归构建二分类预测模型,以0.5作为预测概率值的划分阈值,大于0.5预测概率值的样本类别为1,否则为0,最后利用table()函数得到混淆矩阵,并计算各评估指标值。 # install.packages(DAAG) library(DAAG) data(anesthetic)

文档评论(0)

ning2021 + 关注
实名认证
文档贡献者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档