金融风控-通用建模流程.doc

下载文档

0
0
约4.65千字
约 15页
2024-08-22 发布于广东
举报
版权申诉
保障服务

金融风控-通用建模流程.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

建模不能脱离商业环境的与业务诉求，有时候数字上的最佳答案并非业务的最佳选择。

建模问题的假设：研究对象未来一段时间内的行为模式与过去相似。社会政治大环境基本不变。

机器学习中监督学习的本质：寻找y到x的一个映射。

一、业务问题转化

如何将业务问题转化为二分类问题。在金融风控领域比较常见的如：

零售客户/小微企业/对公客户/融资人/借款人/交易对手是否会违约

零售客户/对公客户/融资人/借款人/交易对手的信用评级(信用风险)

投融资项目风险预警

汽车保险理赔风险预测/车险团伙欺诈

保险代理人留存预测

银行/证券销售人员违规销售

客户在银行交易/保险/证券/支付等场景是否存在洗钱行为、可疑交易(洗钱风险评级)

是否发生财务报销费用违规、采购人员舞弊(舞弊风险)；

是否发生贷款/信用卡/保险/支付/交易欺诈行为(欺诈风险)、

理财/证券/信托客户是否会发生群诉(声誉风险)

以业界较为成熟的贷款的信用评分模型为例：

A卡：申请评分卡：授信、额度、定价。B卡：行为评分卡：调额、调价、管控。C卡：催收评分卡：催收资源分配调度。

二、时间窗口设计

1、根据不同的场景，其确定样本时间窗口的方法大同小异，主要以以下三个准则：

确定样本观察点。多根据业务类型，选择距建模时间较近的事件发生时间点。

根据观察点确定数据时间范围，一般选观察点前一年为观察期，观察点后一段时间为表现期。

由于样本中的每个主体的观察点可能不同，得到的时间窗口会不一样。

2、?以贷款违约预测模型场景为例

先验知识：Rollratetable（贷款迁徙率表）和Monthonbook(MOB)帐龄表。其中Rollratetable是迁徙率表，观察的时间颗粒度最好为每个月的累计资产质量分布，这里面需要注意的是累积。

我们的整个定Y的确定，是围绕着两份报表来确定：贷款迁移率表和账龄表。通常比如逾期天数超过某阈值标记为坏样本，如M3+标记为坏样本，且表现期、观察期各限定6个月，当然也根据不同的贷款产品，对着两张报表来看也是不一样的。

数据统计为作者模拟数据结果

我们来介绍一下，贷款迁移率如何确定Y，我们看到迁移率矩阵，一旦到了M2，变坏的概率高达70%-80%，那么处于M2+逾期状态的客户可以认为坏客户，此时就确定了Y。

我们再介绍下(MOB)帐龄表，根据MOB表可以得到Vintage图。这里的话客户的真实违约风险随着时间推移逐渐暴露。

数据统计为作者模拟数据

根据行业经验，正常还款12期以上的客户，在12期以后的逾期率会趋于稳定，我们可以作为表现期。从上图我们发现，我们看到12个月的样本表现期（MOB=12）逾期率就趋于稳定。一般建模经验与巴塞尔以协议针对内部风险因子的规范而言，建议12个月较为合适。

这里我们最终确定违约2期以上的比例大概在12期达到稳定，表现期定义为12期。但是使用上面方法去确定Y和模型样本，也要两种方法同时去平衡好，既要保证坏客户精准性（或者表现成熟），也要保证模型样本量。

三、样本选择与好坏样本定义

1、样本选择的原则（结合第二部分）:

代表性：样本要可以代表总体。

充分性：总共样本数量大于2000，若太小，则置信度太低。

时效性：样本与未来上线应用的时间越接近越好。

排除性：灰样本需要剔除。比如贷款信用违约/车险理赔风险预测，在构建模型时候，需要剔除掉欺诈样本，以及信用违约里面的Y处于逾期天数在1-90天的(当设置Y为M3+)，这样做的目的是为了样本更纯，在业务上没有其他样本进行干扰，在模型上，数据表现不会有太多的异常噪音。

2、按照业务逻辑以及建模假设，确定好、坏样本定义，要有区分度，不包含灰样本。

3、确定数据集

好、坏样本的比例尽量控制在10：1以内。比例控制可以在因子体系构建完成之前或者之后，采用分层抽样的方式进行调整。

样本总量也不能太少，会没有代表性。

区分时间内(观察期，用于训练模型)与时间外（表现期，用于验证模型）样本，两个区间在时间上无缝衔接，时间内样本去

4.关于样本不均衡问题

随机欠采样：一般是将正样本采集至预期比例。

分层采样：基于模型的假设，对多类样本进行分层抽样，比如按月进行抽样。

算法采样：样本加权，比如调整模型参数class_weight。对于少类样本进行过采样，如SMTOE算法。其中，SMTOE算法基本思想是合成少量负样本的过采样方法，对少数样本进行分析并进行插值，将合成的样本放入数据集中进行训练。

四、数据集切分

区分时间内(观察期，用于训练模型)与时间外（表现期，用于验证模型）样本，两个区间在时间上无缝衔接。

时间内样本区分训练集和测试集，一般比例为7：3或者6：4或者8：2，可自行决定。

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程工程做得好决定了模型的上限

您可能关注的文档

文档评论（0）

gondolaaaa + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

金融风控-通用建模流程.doc