- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据分析方法与应用上海理工大学主讲人:耿秀丽教授第6章文本挖掘
6.1文本挖掘的应用价值目录CONTENTS6.2文本挖掘的流程6.3LDA主题模型6.4模型评估第6章文本挖掘6.5基于LDA主题模型的客户需求挖掘案例分析
6.1文本挖掘的应用价值数据挖掘(DataMining)这一词最早由UsamaFayaadg,于1995年在加拿大蒙特利尔召开的第一届“知识发现和数据挖掘”国际学术会议上提出,它是一门很广泛的交叉学科,汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘和文本挖掘。
6.1文本挖掘的应用价值网络挖掘侧重于分析和挖掘网页相关的数据,包括文本、链接结构和访问统计(最终形成用户网络导航)。一个网页中包含了多种不同的数据类型,因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。网络挖掘
6.1文本挖掘的应用价值文本挖掘,是指以数理统计学和计算机语言学为理论基础,利用信息检索技术从大量文本数据中提取未知的、隐含的、可能有用的信息的过程,也被称为自然语言处理。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。目的:在于把文本信息转化为人可利用的知识。它需要多学科的融合才能达到最好的效果,一般涵盖了统计学、数据可视化、文本分析、模式识别、数据库、机器学习以及数据挖掘等技术。用途:作为信息挖掘的一个研究分支,文本挖掘用于基于文本信息的知识发现。它利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘
6.1文本挖掘的应用价值随着人工智能研究的发展,文本挖掘技术被广泛地应用到很多场景,比如智能语音,机器翻译,文本分析,语音助手,问答系统等等。下面将分别详细介绍文本挖掘技术在机器翻译、文本分析以及问答系统场景中的应用价值。
6.1文本挖掘的应用价值机器翻译的应用价值如何克服语言障碍,实现不同语言的人之间可以自由地交流,已成为国际社会共同面对的问题。互联网的高速发展扩大了对于机器翻译的需求。机器翻译可以为人工翻译减轻负担,提高翻译效率,在部分场景和任务下可替代人工,有极其广阔的应用前景。
6.1文本挖掘的应用价值文本分析的应用价值随着大数据的发展,文本分析被广泛地应用到问卷调研的处理、新媒体热点采集追踪及预测、企业品牌和产品的口碑管理等各个方面。此外,文本分析在舆情监测方面也受到越来越多的重视。利用基于大数据的文本分析,可以清晰地知晓事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情的传播路径、传播节点、发展态势和受众反馈等情报。
6.1文本挖掘的应用价值问答系统的应用价值问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。相对于传统搜索引擎来说,问答系统更加智能,效率也更高,被看作是未来信息服务的颠覆性技术之一。随着人工智能第三次热潮的到来,问答系统的应用领域更加广泛。
6.1文本挖掘的应用价值除了在现实生活中应用以外,许多学者对文本挖掘也进行了广泛的研究。①廖玉清在量化分析后从政策制定侧重点及政策内容上对文本进行总结。②孙宝生等构建游客满意度评价指标体系和评价模型,定量评价游客的生态旅游满意度,为相关生态旅游政策的制定提供参考。③张敏等采用共词分析和聚类分析这两种定量方法剖析了文本挖掘研究现状,表明文本挖掘在信息检索、生物医学和经济管理领域应用广泛;④史航等通过聚类分析得出结论,未来文本挖掘在生物医学领域应用的主要研究热点为文本挖掘的基本技术研究、文本挖掘在生物信息学领域的应用、文本挖掘在药物相关事实抽取中的应用三个方面。⑤李建兰等也表明,未来将其应用于网络新媒体及舆情分析、商业流程优化、医疗健康分析等领域会越来越成熟。
6.2文本挖掘的流程文本挖掘的流程通常我们得到的原始文本数据冗余、复杂,因此文本挖掘处理是分析文本信息非常重要的一部分。将重复、多余、无意义的文本信息剔除,可以提高文本分析的精确度,保证文本信息的质量,使之后得出的分析结果更准确。文本挖掘流程如图所示。
6.2文本挖掘的流程1)文档集获取该过程包括网络数据抓取、文件读入及图片OCR的转化等。可以通过编写爬虫代码或利用爬虫软件方式获取数据。2)数据清洗对文档集通过丢弃、替换、去重等操作,达到去除异常、纠正
文档评论(0)