医疗健康大数据:应用实例与系统分析.doc

医疗健康大数据:应用实例与系统分析.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医疗健康大数据:应用实例与系统分析

医疗健康大数据:应用实例与系统分析 1 、概述 随着信息技术和物联网技术的发展、个人电脑和智能手机的普及以及社交网络的兴起,人类活动产生的数据正以惊人的速度增长。根据国际数据公司(International DataCorporation,IDC)的报告,仅2011年,全世界产生的数据就有1.8 ZB(1 ZB≈1 021 byte),并且平均每5年增长9倍[1]。大数据一词由此而生。 大数据是指难以被传统数据管理系统有效且经济地存储、管理、处理的复杂数据集。大数据一般以PB为单位计量,并包含结构化、半结构化、无结构化的数据,大数据给数据的采集、运输、加密、存储、分析和可视化带来了严峻的挑战[2]。与传统数据相比,大数据包含5个V特性:Volume(数据规模巨大)、Variety(数据类型繁多)、Velocity(数据产生的数据非常快)、Veracity(分析结果取决于数据准确性)、Value(大数据一般包含非常重要的价值)[3]。大数据带来了存储、管理、处理数据的挑战,也带来了发掘数据中新的价值的机遇。多个行业已经利用大数据改善业务,例如金融业、零售业、生命科学、环境研究。大数据市场估计每年会增长50亿美元的价值,到2020年将达到600亿美元的价值[4]。 医疗健康行业目前面临着巨大的挑战,其中,最主要的挑战包括:急剧升高的医疗支出、人口老龄化带来的慢性疾病问题、医疗人员短缺、医疗欺诈[5]等。国家统计局的数据显示,我国2013年医疗卫生总支出为31 668亿元,较2012年上升12.6%,并且已经连续8年每年增长超过10%。医疗支出已经占据了社会总支出很大的比例,在可以预见的将来,医疗支出将会持续增长。然而,根据美国医学研究院(Institute of Medicine,IOM)的一篇报告,如今医疗健康支出的1/3被浪费而没有用于改善医疗。这些浪费包括不必要的服务、行政浪费、昂贵的医疗费用、医疗欺诈和错失预防的机会[6]。为了保持竞争力,医疗机构必须把数据作为一种战略资产,分析数据以达到提高诊断准确度、提高疗效、降低费用、减少浪费的目的。 医疗健康机构采用大数据可以有效地帮助医生进行更准确的临床诊断;更精确地预测治疗方案的成本与疗效;整合病人基因信息进行个性化治疗;分析人口健康数据预测疾病爆发等。利用大数据技术还能有效减少医疗成本,麦肯锡全球研究院预计使用大数据分析技术将每年为美国节省3 000亿美元开支。其中,最有节省开支潜力的两个方面包括临床操作和研发[7]。利用大数据技术帮助医疗企业实现其业务的例子正在快速增多。比如,ActiveHealthManagement收集用户健康方面的数据以帮助用户实现健康管理;CancerIQ整合临床数据和基因数据帮助实现癌症的风险评估、预防和治疗;CliniCast利用大数据预测治疗效果以及降低花费。 本文首先介绍医疗健康行业的大数据特点以及大数据技术背景,然后举例说明目前大数据在医疗健康行业的应用,最后分析目前的医疗健康大数据系统及其相关技术。 2、 背景知识 2.1 大数据处理方法 根据麦肯锡全球研究院2011年的报告,适合大数据的处理技术包括:关联规则学习、分类、聚类分析、数据融合、机器学习、自然语言处理、回归、信号处理、仿真、可视化[8]等。其中,关联规则学习是挖掘各个变量间有趣的关系,比如在零售中发现经常被一起买的商品,便于促销;分类是通过训练已有的数据集来有效识别新的数据,比如预测用户的购买行为;聚类分析是按数据相似程度将整个数据集分为多个小规模的数据集;数据融合是将多个数据源的信息整合分析以产生新的更加精确、连续、有价值的信息;机器学习是一类算法的总称,关注设计算法自动识别数据中的复杂模式;自然语言处理关注计算机与自然语言的联系,帮助计算机识别人类语言;回归是一组统计算法,用来判断因变量与自变量的关系,以帮助预测。信号处理是一组用来识别、分析、处理信号的技术;仿真是模拟一个复杂系统行为的技术,经常被用来预测;可视化是将数据处理为图像、图标、动画,以帮助人类直观了解数据。 2.2 大数据处理平台 大数据的特点决定了传统的数据库软件和数据处理软件无法应对存储、处理、分析大数据的任务。大数据处理任务由运行在数十台,甚至数百台服务器的大规模并行软件完成[8]。常见的大数据处理平台和工具有:MapReduce,其提供了一种分布式编程的抽象方法;Hadoop,其包含了多个系统和工具以帮助完成大数据任务; HDFS,其用来可靠地分布式存储数据; Hive,其提供了Hado op上的SQL支持; HBase,它是基于HDFS的一种非关系型数据库;Zookeeper,其提供了集群节点的一个管理方法。 2.3 医疗健康数据来源 医院信息系统(hospital information sy

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档