金融风控-通用建模流程.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

建模不能脱离商业环境的与业务诉求,有时候数字上的最佳答案并非业务的最佳选择。

建模问题的假设:研究对象未来一段时间内的行为模式与过去相似。社会政治大环境基本不变。

机器学习中监督学习的本质:寻找y到x的一个映射。

一、业务问题转化

如何将业务问题转化为二分类问题。在金融风控领域比较常见的如:

零售客户/小微企业/对公客户/融资人/借款人/交易对手是否会违约

零售客户/对公客户/融资人/借款人/交易对手的信用评级(信用风险)

投融资项目风险预警

汽车保险理赔风险预测/车险团伙欺诈

保险代理人留存预测

银行/证券销售人员违规销售

客户在银行交易/保险/证券/支付等场景是否存在洗钱行为、可疑交易(洗钱风险评级)

是否发生财务报销费用违规、采购人员舞弊(舞弊风险);

是否发生贷款/信用卡/保险/支付/交易欺诈行为(欺诈风险)、

理财/证券/信托客户是否会发生群诉(声誉风险)

以业界较为成熟的贷款的信用评分模型为例:

A卡:申请评分卡:授信、额度、定价。B卡:行为评分卡:调额、调价、管控。C卡:催收评分卡:催收资源分配调度。

二、时间窗口设计

1、根据不同的场景,其确定样本时间窗口的方法大同小异,主要以以下三个准则:

确定样本观察点。多根据业务类型,选择距建模时间较近的事件发生时间点。

根据观察点确定数据时间范围,一般选观察点前一年为观察期,观察点后一段时间为表现期。

由于样本中的每个主体的观察点可能不同,得到的时间窗口会不一样。

2、?以贷款违约预测模型场景为例

先验知识:Rollratetable(贷款迁徙率表)和Monthonbook(MOB)帐龄表。其中Rollratetable是迁徙率表,观察的时间颗粒度最好为每个月的累计资产质量分布,这里面需要注意的是累积。

我们的整个定Y的确定,是围绕着两份报表来确定:贷款迁移率表和账龄表。通常比如逾期天数超过某阈值标记为坏样本,如M3+标记为坏样本,且表现期、观察期各限定6个月,当然也根据不同的贷款产品,对着两张报表来看也是不一样的。

数据统计为作者模拟数据结果

我们来介绍一下,贷款迁移率如何确定Y,我们看到迁移率矩阵,一旦到了M2,变坏的概率高达70%-80%,那么处于M2+逾期状态的客户可以认为坏客户,此时就确定了Y。

我们再介绍下(MOB)帐龄表,根据MOB表可以得到Vintage图。这里的话客户的真实违约风险随着时间推移逐渐暴露。

数据统计为作者模拟数据

根据行业经验,正常还款12期以上的客户,在12期以后的逾期率会趋于稳定,我们可以作为表现期。从上图我们发现,我们看到12个月的样本表现期(MOB=12)逾期率就趋于稳定。一般建模经验与巴塞尔以协议针对内部风险因子的规范而言,建议12个月较为合适。

这里我们最终确定违约2期以上的比例大概在12期达到稳定,表现期定义为12期。但是使用上面方法去确定Y和模型样本,也要两种方法同时去平衡好,既要保证坏客户精准性(或者表现成熟),也要保证模型样本量。

三、样本选择与好坏样本定义

1、样本选择的原则(结合第二部分):

代表性:样本要可以代表总体。

充分性:总共样本数量大于2000,若太小,则置信度太低。

时效性:样本与未来上线应用的时间越接近越好。

排除性:灰样本需要剔除。比如贷款信用违约/车险理赔风险预测,在构建模型时候,需要剔除掉欺诈样本,以及信用违约里面的Y处于逾期天数在1-90天的(当设置Y为M3+),这样做的目的是为了样本更纯,在业务上没有其他样本进行干扰,在模型上,数据表现不会有太多的异常噪音。

2、按照业务逻辑以及建模假设,确定好、坏样本定义,要有区分度,不包含灰样本。

3、确定数据集

好、坏样本的比例尽量控制在10:1以内。比例控制可以在因子体系构建完成之前或者之后,采用分层抽样的方式进行调整。

样本总量也不能太少,会没有代表性。

区分时间内(观察期,用于训练模型)与时间外(表现期,用于验证模型)样本,两个区间在时间上无缝衔接,时间内样本去

4.关于样本不均衡问题

随机欠采样:一般是将正样本采集至预期比例。

分层采样:基于模型的假设,对多类样本进行分层抽样,比如按月进行抽样。

算法采样:样本加权,比如调整模型参数class_weight。对于少类样本进行过采样,如SMTOE算法。其中,SMTOE算法基本思想是合成少量负样本的过采样方法,对少数样本进行分析并进行插值,将合成的样本放入数据集中进行训练。

四、数据集切分

区分时间内(观察期,用于训练模型)与时间外(表现期,用于验证模型)样本,两个区间在时间上无缝衔接。

时间内样本区分训练集和测试集,一般比例为7:3或者6:4或者8:2,可自行决定。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程工程做得好决定了模型的上限

您可能关注的文档

文档评论(0)

gondolaaaa + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档