深度学习机器学习实战项目案例分析.pdfVIP

深度学习机器学习实战项目案例分析.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度学习机器学习实战项目案例分析

本文根据平安人寿AI资深专家吴建军老师在平安人寿DataFunTalk算法主题技术沙

龙—“机器学习/深度学习在金融领域最新研究和应用实践”中分享的《机器学习/深度学

习工程实战》编辑整理而成,在未改变原意的基础上稍做整理。

今天主要从以下几个方面进行分享:平安人寿AI应用技术概览,数据处理和编码,模

型应用与实时服务,算法与模型训练。

首先讲一下平安人寿AI应用技术概览,首先分一个大数据平台开发,分为平台级的开

发和应用级的开发。平台级开发主要有离线计算平台,实时计算平台,以及多维分析引擎

等;应用级开发有数据采集清洗,统计报表开发,画像挖掘等。算法研究方面分为三个方

向,第一个统计分析,金融数据比较复杂,需要投入大量的人力财力做统计分析,用的比

较多。还有就是机器学习、深度学习两类方法,主要解决的问题有:机器学习主要解决分

类与推荐、知识图谱、自然语言处理,深度学习解决量化精算、视觉模型,强化学习正在

研发当中。后台系统分为两块,一个是组件类开发,一个是服务类开发。组件主要是服务

框架、训练平台、容器平台,还有一些分布式存储组件。模型服务主要是针对这个应用来

开发一些专用的系统,用专用的应用服务对接。

上图是我们的平台架构,首先是数据搜集,主要依靠Kafka,对于老系统自有一套收

集机制,数据搜集完成进入Hadp和关系DB。数据清洗主要依靠hive和spark,hive

实现hql,spark进行复杂的数据处理。除此之外还要做一些洞察分析,分为两块一个是单

表快速实时分析,第二个是多表关联实时分析。单表主要用DruidES做多维,多表关联

主要靠PrestImpala。还有一些用matlab,SAS做精算量化模型,还用Tensrflw做

深度学习,用Hbase,Redis主要做画像存储,提供实时查询,还有一些容器平台对外提

供容器调用。

接下来讲下我们用AI技术干嘛,AI在金融领域用的还是很广,很多业务都是靠数据

推动,金融对数据依赖性很强。具体应用有代理人管理,平安有百万级的代理人,利用AI

算法管理代理人的招聘、销售、升级,还有智慧客服、智慧续收、智慧理赔、坐席等应用

于很多场景。

数据是核心,接下来讲一下我们的数据以及数据处理情况。保险行业做数据挖掘遇到

的挑战很多,第一个挑战就是决策周期长,低频交互,比如保险非日常消费品/非必需,消

费决策过程比较理性。因此模型有没有效都要经过很长的周期检验,在这个周期内都将面

临很大的风险。再一个数据比较复杂,稳定性差。数据复杂体现在首先业务线很多,每个

业务线存储介质也有很多,每个数据产生的场景也不同,数据种类差异也很大,有文本、

LBS,还有一些图像的、自然语言的。还有一个成本比较高,互联网所做的模型都要经过

A/Btext,但是保险行业不能这样执行。

那么如何解决这些问题呢,大致从以下三个方面解决画像产生、质量检验、数据

embedding。首先就是画像如何产生,接着对数据进行检验,因为获取的数据并不一定可

靠,然后对数据进行embedding,做embedding的原因就是数据比较复杂,需要对数

据提供一种规范化的表示。

建立画像生产首先建立数据分层(ODS、DW、DM、MM),这种数据分层主要是偏

业务,虽然没有技术难点但是将其建好不容易。然后做数据模式抽象统一,针对行为数据、

事实数据和图像三类数据进行抽象统一。每天产生的行为数据很多,如保险打电话、理赔、

网上点击按钮等,归类行为五要素,即什么人在什么时间对什么对象做了什么动作以及这

个动作的强度。事实三元组即主语、谓语、宾语,对图像就做embedding。将数据抽象

统一后做画像,画像有很多种做法,第一种就是作坊式生产,依据领导要求生存画像,这

样比较累。目前标准是画像需求格式要标准化,从而实现自动化的生产机制,这样做的好

处就是首先节省人力,需求可以重复利用。

接下来讲一下数据质量如何检验,质量检验一直是个难点,其指标很复杂,时间很差,

很难判断计算是否准确。主要从三个方面入手,首先稳定性,给出的模型虽然很难判断其

文档评论(0)

176****7010 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档