第三讲:信用评级模型.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三讲:信用评级模型

模型迭代停止,使模型过度似合可能性最小。 * 决策树预测模型   树模型是先将观测数据分到不同组中,再获得每组的得分。树模型分成回归树和分类树,回归树的响应变量是连续的;分类树的响应变量是离散型定量变量或定性变量。 回归树生成的拟合值: 分类树生成的拟合概率: *   划分规则:选择划分规则意味着从现有的方法中选择了一个分类器,选择最好的划分。 错分不纯性 Gini不纯性 熵不纯性 * 剪枝:   当没有停机准则时,根据因变量的数值和级别值、树模型可以一直增长直到每一个节点都包含相同的观测数据,这显然不是一个简约的划分。因此,当树达到一定规模时,很有必要停止树的增长,最终得到的理想树模型应既简约又准确。   CART剪枝方法:首先树构成最大尺寸,这可能使树的叶子个数很多。然后根据成本复杂度原则,对树进行修剪或剪枝。剪枝原则是从优化的方式生成子树,它使损失函数最小。 * 结论:3层树为最佳模型 保证模型的稳健性   模型评估测度选择“平均损失最小”,其它选择默认项。 * * 模型评估 三个模型的拟合的总均方误接近,从最小损决策原则来看,决策树模型最差,回归模型和神经网络模型各有千秋,可以考虑综合两模型。 * 整合模型   整合模型(Ensemble mode)就是对前续模型,以平均后验概率(分类目标变量)或平均预测值(区间目标变量)作为响应预测值而建立的模型。   整合回归模型和神经网络模型,选择“combined”模型。选择验效数据集训练模型。 * 模型评估 模型响应率 * 模型响应捕获率始终优于随机抽样 模型提升率始终优于随机抽样 *   使用模型预测单位样本的平均损失始终好于随机抽样。若于总损失来说,得分前50%左右的观测值为拒绝者。 * 从边际响应来看(非累积响应率),得分在30%前的观测为拒绝者为佳。 决策最佳区间 *   我们可以改变目标决策函数,即重新编辑Target Proflie,可以进行模拟运算。 * ROC曲线是一个测量模型预测准确率的图。 敏感性(Sensitivity):指正确捕获响应的比率。 特异性(Specificity):指正确捕获非响应的比率。 * 交互式利润分析 取前20%预测得分值申请者接受,则回报期望最大。 * 预测程序代码 * 预测 以SAMPSIO.DMAGESCR数据集为预测数据集,选择为“SCORE”角色。在SCORE节点中选择“EMDATA.VIEW_MLX”数据应用预测程序。 *  预测响应概率,即某个观察是响应的概率值,或不是响应的概率值。 浏览预测结果 * 插入Distribution Explorer节点,设置EL_GOOD_BADN_ (期望损失)为X轴。 * 生成报告 * 报告中提供了程序的C代码 * * 第三讲:信用评级模型 主讲:梁满发 工作目标   信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资公司、信用卡公司)的金融风险。   信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等工作中。   现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮助决定接受或拒绝信用申请。   我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用观察数据,既要包括足够的响应和非响应,以及相应的客户金融行为信息和社会背景信息,这些信息可是区别不同信用者因素。 *   在此,我们有某德国银行的客户信用的历史数据,数据文件名为SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库中抽样出来的,原数据库中仅有10%的响应(信用不合格者),为了有足够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的30%。 除good_bad变量外的其它20变量意义如下: 社会人口变量 Marital:性别与婚姻状况 Age:年龄 Resident:在现住所的居住年数 Telephon:电话号码 个人和金融变量 Checking:银行帐户情况 Savings:存款数量 History:使用信用卡情况 Property:财富、保险情况 Coapp:担保情况 Job:职业类型 Employed:工作年限 Foreign:是否是外国职员 债权人财产变量 Housing:房产情况 Depends:动产数 Existcr:在本银行是否有信用卡 具体贷款变量 Amount:信用卡保证金 Purpose:贷款目的 Duration:贷款期 Insta

您可能关注的文档

文档评论(0)

aena45 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档