概念漂移数据流分类研究综述.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概念漂移数据流分类研究综述

文章题目 概念漂移数据流分类研究综述 创 新 点 自 述 剖析了概念漂移数据流分类研究产生并发展的脉络; 包含了概念漂移数据流分类的最新研究动向——概念漂移数据流分类中的类别不平衡学习、重复概念学习及半监督学习和主动学习问题; 深入分析了当前概念漂移数据流分类算法存在的问题。 DOI:10.3969/j.issn.1673-4785.稿件编号 概念漂移数据流分类研究综述 文益民1,强保华1,范志刚2 (1. 桂林电子科技大学 计算机科学与工程学院, 广西桂林 541004; 2. 中国科学院上海高等研究院,上海市浦东新区 201203) 摘 要:由于现有各种机器学习算法本质上都是基于一个静态学习环境而以尽量保证学习系统泛化能力为目标的一个寻优过程,概念漂移数据流分类给机器学习带来了巨大挑战。从数据流与概念漂移、概念漂移数据流分类研究的发展与趋势、概念漂移数据流分类的主要研究领域、概念漂移数据流分类研究的新动态四个方面展开了文献综述,并分析了当前概念漂移数据流分类算法存在的问题。 关键词:大数据;概念漂移;增量学习;适应学习; 数据流 中图分类号:TP391.4 文献标志码:A 文章编号:1673-4785(2012)01-xxxx-x A survey of the classification of data streams with concept drift WEN Yi-min1,1,2 (1. College of Computer Science and Engineering, Guilin Univ of Electronic Technology, Guilin 54004, China; 2. Shanghai Advanced Research Institute, Chinese Academy of Sciences, Shanghai 201203, China) Abstract:Because of the current machine learning algorithms all are an optimization procedure that aims to ensure the generalization ability based on static learning environment in essence, it have faced with severe challenges to classify data streams with concept drift. The survey consists of four aspects: data streams and concept drift, the development process and future trends, the main research fields, and the new developments in the study field of the classification data streams with concept drift. The problems are discussed at last. Keywords: big data; concept drift; incremental learning; adaptive learning; data stream (在社会生产和生活实践中,有一类问题是数据所包含的概念[1]可能随时间而变化。自动化生产线上,相近原因的问题产品会连续出现,然后问题产品的特征也随之发生变化;商务活动中,顾客的购买兴趣随时间而变化;网络安全中,网络的访问模式随用户不同而变化;社交媒体上,用户的实际行为随其注册位置而变化。这些问题的共同特点是:不断产生的数据形成流;数据流没有终点;数据流中数据包含的概念随时可能产生变化。数据流中这种概念的变化在本文中被称为概念漂移[2]。概念漂移要求学习系统能尽早地检测到概念漂移,并对自身进行适应概念漂移的调整,以对不断到来的数据尽可能地正确判断。 概念漂移问题给机器学习带来了巨大的挑战。目前各种人工学习系统的构造算法在本质上都是基于一个静态学习环境而以尽量保证学习系统泛化能力为目标的一个寻优过程,所以现有各种机器学习算法本质上都不适应进行概念漂移数据流学习。这种不适应体现在:计算模型或者缺乏获取新知识的能力,或者不能保持原本学到的知识[3]。 自“概念漂移”(concept drift)在1986年由Schlimmer和Granger首次提出后[2],国内外众多研究人员对概念漂移数据流分类展开了深入研究。Kuncheva[4]、

文档评论(0)

wuailuo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档