- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于模式聚合和改进统计量的文本降维方法
文本挖掘概述 文本数据的特点: 半结构化或者无结构化 高维数据 大数据量 时变数据 语义性 无标签 分布式 文本挖掘的功能主要包括: 文本总结 文本分类 文本聚类 关联分析 分布分析 趋势预测 文本挖掘概述 本挖掘面临的研究课题 文本的表示特征 经典的文本表示模型是向量空间模型 空间降维问题 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算每一特征的某种指标值,根据指标值的高低决定是否保留相应的字或词,或者对相应特征加权,从而实现特征选择。主要有互信息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和文本证据权 潜在语义索引 :利用概念标引代替关键词标引,从语义相关的角度为文本选择标引词,而不考虑标引词是否在文本中出现,其通过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转换后的文本向量进行文本挖掘处理。 主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。 还有一些常见的文本降维算法,主要包括基于文档频率方法、基于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等, 文本挖掘概述 文本相似性度量问题 模式的理解和可视化显示 一词多义和多词一义问题 跨语言问题 算法的选择 领域知识集成 中文文本分词技术 文本分类方法概述 文本挖掘中最基本的两项工作就是分类和聚类,几乎在所有文本挖掘的应用领域都离不开文本的分类和聚类。文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别是Internet上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。但是,随着信息量日趋丰富,人们对于内容搜索的准确率、查全率等方面的要求会越来越高,因而对文本分类技术需求大为增加,如何构造一个有效的文本分类系统仍然是文本挖掘的一个主要研究方向 文本分类方法概述 文本分类方法主要包括基于传统技术的决策树、K最近邻(KNN)、关联规则、支持向量机(SVM)、基于数据库的算法、贝叶斯等分类算法和基于软计算的神经网络、粗糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通过协同工作提供一种灵活的数据处理能力,其目标是实现对不精确、不确定、部分信息的处理能力和近似推理能力,以求能方便、稳健、低代价地逼近人类的分析判断能力。模糊逻辑提供处理由于模糊而不是随机产生的不精确、不确定性的算法,粗糙集则处理由于不可分辨关系导致的不确定性,神经网络用于模式分类与聚类,而遗传算法则用于优化和搜索。 文本特征的降维方法 基于模式聚合和改进 统计量的文本降维方法 基于CHI值原理和粗糙集理论的属性约减的文本降维方法 基于神经网络的文本特征抽取方法 基于模式聚合和改进 统计量的文本降维方法 改进的 统计量 CHI的主要思想是认为词条与类别之间符合 分布,词条的 统计量表示词条对某个类别的贡献大小。 统计量越高,词条和类别之间的独立性越小、相关性越强,即词条对此类别的贡献越大。 统计量的计算公式 基于模式聚合和改进 统计量的文本降维方法 改进的 统计量 词条和类别的相关性是有正反两种情况的 : 当 >0,词条和类别正相关 当 <0,词条和类别负相关 改进的 统计量 基于模式聚合和改进 统计量的文本降维方法 改进的 统计量 一般特征的CHI值为该特征对所有类别的 统计量的平均值或最大值。在改进的 统计量上,规定词条的CHI值为: 基于模式聚合和改进 统计量的文本降维方法 基于模式聚合理论的特征降维 基于改进的 统计量和模式聚合方法的特征降维步骤如下: 计算每个词条对每类的改进的 统计量。 计算出各个词条的CHI值。然后把特征按CHI值由高到低进行排序,选取CHI值大的前M个特征词条,则由此得到的特征矩阵具有M个模式。 为比较各个模式对各类分类贡献比例是否一致,首先将每个模式的改进 统计量统一处理到[-1,1]之间,处理方式如下: 基于模式聚合和改进 统计量的文本降维方法 采用凝聚的层次法聚类算法,根据对模式进行聚类(的每行表示一个模式)。将欧氏距离小于一定阈值的模式进行聚类; 重新计算每个特征项的CHI值,根据CHI值
您可能关注的文档
最近下载
- FLEX SYSTEM EN2092 1GB ETHERNET调试文档模板.pdf VIP
- 2024年9月中国汽车产销报告.pdf VIP
- 2024年11月广东深圳市福田区选用机关事业单位辅助人员和社区专职工作者143人笔试备考题库及答案解析.docx VIP
- 流体力学 课件 第6章 气体射流.pptx
- 武汉理工大学材料科学基础课件(全套).pdf
- 风貌改造工程施工组织设计.doc
- 药品生物检定技术 全套教案.doc
- 浅谈双碳战略下的自来水厂碳核算碳减排经验分享_供水技术讲座资料课件.pptx
- 2024广州铁路局机考.pdf
- 11《动物的眼睛》教学设计-2023-2024学年科学二年级下册青岛版.docx VIP
文档评论(0)