R语言数据分析与挖掘-模型性能评估及优化.pptxVIP

下载本文档

2
0
约8.51千字
约 23页
2023-10-20 发布于山东
举报
版权申诉

R语言数据分析与挖掘-模型性能评估及优化.pptx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模型性能评估 01102模型参数优化01 模型性能评估201 PAGE3模型性能评估3预测通常有两大应用场景：第一类是预测某指标的取值，也称为数值预测，数值预测模型性能评估主要通过均方误差、均方根误差、平均绝对误差等指标来评价；第二类是预测某事物出现的概率，也称为概率预测，对于二分类概率预测，常以混淆矩阵为基础，通过准确率率、覆盖率等指标，结合ROC曲线、KS曲线、提升图等可视化方法来评估模型性能。 PAGE4数值预测评估方法4? PAGE5数值预测评估方法5? PAGE6数值预测评估方法R语言实现6让我们利用mlbench扩展包中BostonHousing（波士顿房价）数据集为例，利用lm()函数建立以medv为因变量，其他特征为自变量的线性回归模型，并通过自定义函数，实现计算以上常见数值预测模型评估指标。实现代码如下： # 加载包，不存在就进行在线下载后加载 if(!require(mlbench)) install.packages(mlbench) data(BostonHousing) # 数据分区 library(caret) index - createDataPartition(BostonHousing$medv, + p = 0.75,list = FALSE) train - BostonHousing[index,] test - BostonHousing[-index,] # 利用训练集构建模型,并对测试集进行预测 set.seed(1234) fit - lm(medv ~ .,data = train) pred - predict(fit,newdata = test) # 自定义函数计算数值预测模型的评估指标 numericIndex - function(obs,pred){+ # 计算平均绝对误差MAE+ MAE - mean(abs(obs-pred))+ # 计算均方误差MSE+ MSE - mean((obs-pred)^2)+ # 计算均方根误差RMSE+ RMSE - sqrt(mean((obs-pred)^2))+ # 计算归一化均方误差+ NMSE - sum((obs-pred)^2)/(sum((obs-mean(obs))^2))+ # 计算判定系数Rsquared+ Rsqured - cor(pred,obs)^2+ # 返回向量形式+ return(c(MAE = MAE,MSE = MSE,RMSE = RMSE,NMSE = NMSE,Rsqured = Rsqured))+ } # 计算各指标度量值 numericIndex(test$medv,pred) MAE MSE RMSE NMSE Rsqured 3.4565308 26.6531431 5.1626682 0.3731474 0.6461423 PAGE7概率预测评估方法-混淆矩阵7概率是指事物出现的可能性，是对分类问题中某类出现概率的描述，本质上是分类问题（通过各类别出现的概率大小确定取某一类）。常用评估方法有：混淆矩阵、ROC曲线、KS曲线、累计提升图等。处理分类问题的评估思路，最常见的就是通过混淆矩阵，结合分析图表综合评价。??预测类别实际类别?101TPFN0FPTNTrue Positive（TP）：指模型预测为正(1)，并且实际上也的确是正(1)的观察对象的数量。True Negative（TN）：指模型预测为负(0)，并且实际上也的确是负(0)的观察对象的数量。False Positive（FP）：指模型预测为正(1)，但是实际上是负(0)的观测对象的数量。False Negative（FN）：指模型预测为负(0)，但是实际上是正(1)的观测对象的数量。 PAGE8概率预测评估方法-混淆矩阵8? PAGE9概率预测评估方法-混淆矩阵9? PAGE10概率预测评估方法-混淆矩阵案例10接下来，利用DAAG扩展包的数据集anesthetic为例进行演示。数据集来自于一组医学数据，其中变量conc表示麻醉剂的用量，move则表示手术病人是否有所移动，而我们用nomove做为因变量，研究的重点在于conc的增加是否会使nomove的概率增加。以下代码利用逻辑回归构建二分类预测模型，以0.5作为预测概率值的划分阈值，大于0.5预测概率值的样本类别为1，否则为0，最后利用table()函数得到混淆矩阵，并计算各评估指标值。 # install.packages(DAAG) library(DAAG) data(anesthetic)

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

文档贡献者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

R语言数据分析与挖掘-模型性能评估及优化.pptxVIP