- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
建模不能脱离商业环境的与业务诉求,有时候数字上的最佳答案并非业务的最佳选择。
建模问题的假设:研究对象未来一段时间内的行为模式与过去相似。社会政治大环境基本不变。
机器学习中监督学习的本质:寻找y到x的一个映射。
一、业务问题转化
如何将业务问题转化为二分类问题。在金融风控领域比较常见的如:
零售客户/小微企业/对公客户/融资人/借款人/交易对手是否会违约
零售客户/对公客户/融资人/借款人/交易对手的信用评级(信用风险)
投融资项目风险预警
汽车保险理赔风险预测/车险团伙欺诈
保险代理人留存预测
银行/证券销售人员违规销售
客户在银行交易/保险/证券/支付等场景是否存在洗钱行为、可疑交易(洗钱风险评级)
是否发生财务报销费用违规、采购人员舞弊(舞弊风险);
是否发生贷款/信用卡/保险/支付/交易欺诈行为(欺诈风险)、
理财/证券/信托客户是否会发生群诉(声誉风险)
以业界较为成熟的贷款的信用评分模型为例:
A卡:申请评分卡:授信、额度、定价。B卡:行为评分卡:调额、调价、管控。C卡:催收评分卡:催收资源分配调度。
二、时间窗口设计
1、根据不同的场景,其确定样本时间窗口的方法大同小异,主要以以下三个准则:
确定样本观察点。多根据业务类型,选择距建模时间较近的事件发生时间点。
根据观察点确定数据时间范围,一般选观察点前一年为观察期,观察点后一段时间为表现期。
由于样本中的每个主体的观察点可能不同,得到的时间窗口会不一样。
2、?以贷款违约预测模型场景为例
先验知识:Rollratetable(贷款迁徙率表)和Monthonbook(MOB)帐龄表。其中Rollratetable是迁徙率表,观察的时间颗粒度最好为每个月的累计资产质量分布,这里面需要注意的是累积。
我们的整个定Y的确定,是围绕着两份报表来确定:贷款迁移率表和账龄表。通常比如逾期天数超过某阈值标记为坏样本,如M3+标记为坏样本,且表现期、观察期各限定6个月,当然也根据不同的贷款产品,对着两张报表来看也是不一样的。
数据统计为作者模拟数据结果
我们来介绍一下,贷款迁移率如何确定Y,我们看到迁移率矩阵,一旦到了M2,变坏的概率高达70%-80%,那么处于M2+逾期状态的客户可以认为坏客户,此时就确定了Y。
我们再介绍下(MOB)帐龄表,根据MOB表可以得到Vintage图。这里的话客户的真实违约风险随着时间推移逐渐暴露。
数据统计为作者模拟数据
根据行业经验,正常还款12期以上的客户,在12期以后的逾期率会趋于稳定,我们可以作为表现期。从上图我们发现,我们看到12个月的样本表现期(MOB=12)逾期率就趋于稳定。一般建模经验与巴塞尔以协议针对内部风险因子的规范而言,建议12个月较为合适。
这里我们最终确定违约2期以上的比例大概在12期达到稳定,表现期定义为12期。但是使用上面方法去确定Y和模型样本,也要两种方法同时去平衡好,既要保证坏客户精准性(或者表现成熟),也要保证模型样本量。
三、样本选择与好坏样本定义
1、样本选择的原则(结合第二部分):
代表性:样本要可以代表总体。
充分性:总共样本数量大于2000,若太小,则置信度太低。
时效性:样本与未来上线应用的时间越接近越好。
排除性:灰样本需要剔除。比如贷款信用违约/车险理赔风险预测,在构建模型时候,需要剔除掉欺诈样本,以及信用违约里面的Y处于逾期天数在1-90天的(当设置Y为M3+),这样做的目的是为了样本更纯,在业务上没有其他样本进行干扰,在模型上,数据表现不会有太多的异常噪音。
2、按照业务逻辑以及建模假设,确定好、坏样本定义,要有区分度,不包含灰样本。
3、确定数据集
好、坏样本的比例尽量控制在10:1以内。比例控制可以在因子体系构建完成之前或者之后,采用分层抽样的方式进行调整。
样本总量也不能太少,会没有代表性。
区分时间内(观察期,用于训练模型)与时间外(表现期,用于验证模型)样本,两个区间在时间上无缝衔接,时间内样本去
4.关于样本不均衡问题
随机欠采样:一般是将正样本采集至预期比例。
分层采样:基于模型的假设,对多类样本进行分层抽样,比如按月进行抽样。
算法采样:样本加权,比如调整模型参数class_weight。对于少类样本进行过采样,如SMTOE算法。其中,SMTOE算法基本思想是合成少量负样本的过采样方法,对少数样本进行分析并进行插值,将合成的样本放入数据集中进行训练。
四、数据集切分
区分时间内(观察期,用于训练模型)与时间外(表现期,用于验证模型)样本,两个区间在时间上无缝衔接。
时间内样本区分训练集和测试集,一般比例为7:3或者6:4或者8:2,可自行决定。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程工程做得好决定了模型的上限
您可能关注的文档
- 《信息检索》课程教案.doc
- xBOM解读和应用案例分享.doc
- 大学英语数词练习题(含答案).doc
- 浮世絵研究助成申請書.doc
- 基于单片机的棉田水肥智能灌溉控制系统设计.doc
- 配电网规划设计技术导则.doc
- xBOM解读和应用案例分享.pdf
- 浮世絵研究助成申請書.pdf
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题19-并列连词a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题09-谓语动词-被动语态a原卷版.docx
- 2025届高三统编版(2019)历史一轮复习2022~2024年高考历史真题(非选择题)汇编:改革开放后含答案.docx
- 2025届高三统编版(2019)历史一轮复习2022~2024年高考历史真题(选择题)汇编:旧民主主义革命时期含答案.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题18-状语从句a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题16-定语从句a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题20介词a原卷版.docx
- 2025届高三统编版(2019)历史一轮复习2022~2024年高考历史真题(非选择题)汇编:旧民主主义革命时期含答案.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题21代词a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题22冠词a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题14-名词单复数a原卷版.docx
- 十年(2015-2024)高考英语语法填空真题与最新模考试题汇编 专题12-非谓语动词-过去分词a原卷版.docx
文档评论(0)