大数据环境下的机器学习算法研究综述.docx

大数据环境下的机器学习算法研究综述.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据环境下的机器学习算法研究综述 1 大数据时代的web数据研究与实践 随着工业领域数据量的快速增长,数据以前所未有的速度积累,大数据的概念越来越受到重视。大数据给数据智能公司带来了巨大的好处。据估计,仅google在2009年对美国经济做出了540亿的贡献。学术界和工业界对大数据的理解也逐渐澄清,并形成了共识。 2011 年的语义技术信息 ( Semantic Technologies Information, STI) 峰会上, 与会的语义网络和数据库学者讨论了大数据时代语义网络、语义技术及数据库领域所面临的挑战. 关于大数据带来的挑战主要有如下观点. Brodie认为在真实、无模式和复杂的大数据或大数据语义网络中进行有意义的数据集成需多学科多技术交叉. Bizer列举大数据时代的Web数据研究的3 种挑战:1) Web数据的拓扑结构, 因为互联网中有大量的不同形式的数据存在, 各种类型的数据都非常巨大;2) Web数据的特点, 这对于数据集成和大数据处理来说是一个值得研究的问题;3) 已有一些公开的可用的预先爬取好的Web数据集可用于评测和实验. 他认为未来的挑战都将围绕数据集成、大规模资源描述框架 (Resource Description Framework, RDF) 处理和数据质量评定. Boncz认为如果人们想更广泛地使用语义网络, 存在两大挑战:1) 缺乏好的使用案例;2) 现有的数据集成方法使得创建链接非常困难. Erling认为大数据时代语义的价值体现在让数据集成驱动数据库管理系统 (Database Management System, DBMS) 的技术. 产业方面, 大数据是现有产业升级与新产业诞生的重要推动力量. 大数据时代的到来, 产业界需求与关注点发生重大转变:企业关注的重点转向数据, 计算机行业正在转变为真正的信息行业, 从追求计算速度转变为关注大数据处理能力, 软件也将从编程为主转变为以数据处理为主. 大数据处理的兴起也改变云计算的发展方向, 使其进入以分析即服务 (Analytics as a Service, Aaa S) 为主要标志的Cloud2. 0 时代. 机器学习算法在学术界和产业界都有巨大的实用价值. 由于大数据的大量、复杂特性, 对于大数据下的应用问题, 传统的在小数据上的机器学习算法很多已不再适用. 因此, 研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题. 本文主要分析和总结当前用于处理大数据的机器学习算法的研究现状. 并行是处理大数据的主流方法, 本文还单独介绍一些并行算法, 并引出大数据环境下机器学习研究所面临的问题. 2 大数据的知识 2.1 大数据的定义 有关大数据的定义有多种. 一个狭义的定义:大数据是指不能装载进计算机内存储器的数据. 尽管这是一个非正式的定义, 但易理解, 因为每台电脑都有一个大到不能装载进内存的数据集. 李国杰等对大数据的定义为:一般意义上, 大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合. 2.2 etyy 大数据有多方面的特点, 从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的. Laney的3V模型包括体积 (Volume) , 速度 (Velocity) 和多样性 ( Variety) ;4V模型中的第4 个V有多种解释, 如变化性 (Variability) , 虚拟化 ( Virtual) 或价值 (Value) . 针对这些特点, 王飞跃认为在大数据时代知识解析、机器智能与人类智能协调工作及智能分析系统将会扮演重要角色, 人们需要一种智能分析接口将人类与计算机世界连接, 否则将被淹没在大数据的洪流中. 总之, 大数据问题是目前学术界和产业界共同关注的挑战性问题. 伴随着大数据的采集、传输、处理和应用的相关技术就是大数据处理技术, 是系列使用非传统的工具来处理大量的结构化、半结构化和非结构化数据, 从而获得分析和预测结果的一系列数据处理技术. 3 传统机器学习 随着大数据时代的到来, 大数据逐渐成为学术界和产业界的热点, 已在很多技术和行业广泛应用, 从大规模数据库到商业智能和数据挖掘应用;从搜索引擎到推荐系统;推荐最新的语音识别、翻译等.大数据算法的设计、分析和工程涉及很多方面, 包括大规模并行计算、流算法、云技术等. 由于大数据存在复杂、高维、多变等特性, 如何从真实、凌乱、无模式和复杂的大数据中挖掘出人类感兴趣的知识, 迫切需要更深刻的机器学习理论进行指导. 传统机器学习的问题主要包括如下4 个方面:1) 理解并且模拟人类的学习过程;2) 针对计算机系统和人类用户之间的自然语言接口的研究;3) 针对不完全的信息进行推理的能力, 即自动

您可能关注的文档

文档评论(0)

xlwkyc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档