信息内容安全管理及应用课件第4章第1节.pptx

信息内容安全管理及应用课件第4章第1节.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第四章文本信息的特征抽取;目录Contents;目录Contents;文本特征的抽取概述;文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。

通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,将若干个评分值最高的作为特征词,这就是特征抽取(FeatureSelection)。

直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,将导致巨大的计算开销、处理过程的效率非常低下、损害分类、聚类算法的精确性。;目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。

特征项必须具备一定的特性:

1)特征项要能够确实标识文本内容;

2)特征项具有将目标文本与其他文本相区分的能力;

3)特征项的个数不能太多;

4)特征项分离要比较容易实现。

目前大多数中文文本分类系统都采用词作为特征项,称作特征词。

特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。;如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大。

特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。

特征选取的方式有4种:

1)用映射或变换的方法把原始特征变换为较少的新特征;

2)从原始特征中挑选出一些最具代表性的特征;

3)根据专家的知识挑选最有影响的特征;

4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。;目录Contents;语义特征的抽取;文本语义特征可分为如下类别:亚词级别、词级别、多词级别、语义级别和语用级别。其中应用最为广泛的是词级别。

英文中利用空格与标点符号可将连续文本切分为词。通过简化,忽略词之间的逻辑语义关系以及词之间的顺序,文本可映射为一个词袋(bag-of-words)。词袋???型中只有词及其出现次数被保留下来。;特征词可进行计算的因素

词频:文本内空中的中频词往往具有代表性,高频词区分能力较小,而低频词或者极少出现的词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素,并且在不同方法中有不同的应用公式。

词性:虚词,如感叹词、介词、连词等,对于标识文本的类别特性并没有贡献。因此,在提取文本特征时,首先考虑剔除虚词以减少噪音并降低文本分类的效率和准确率。在实词中,又以名词和动词对于文本的类别特性的表现力最强,所以可以只提取文本中的名词和动词作为文本的一级特征词。;特征词可进行计算的因素

文档、词语长度:通常来说,长词汇含义更明确,更能反映文本主题,适合作为关键词,因此将包含在长词汇中低于一定过滤阈值的短词汇进行了过滤。过滤阈值指短词汇的权重和长词汇的权重的比的最大值。

词语直径(Diameter):词语直径是指词语在文本中首次出现的位置和末次出现的位置之间的距离。词语直径是比较粗糙的度量特征。

首次出现位置(FirstLocation):关键词一般在文章中较早出现,因此出现位置靠前的候选词应该加大权重。首次出现位置和词语直径两个特征只选择一个使用就可以了。

词语分布偏差(Deviation):词语分布偏差所考虑的是词语在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词汇。;亚词级别(Sub-WordLevel)也称为字素级别(GraphemicLevel)。英文中比词级别更低的文字组成单位是字母,汉语中则是单字。

n元模型

n元模型将文本表示为重叠的n个连续字母(对应汉语情况为单字)的序列作为特征项。

采用n元模型表示,当n小于单词长度时,错误拼写与正确拼写之间会有部分n元模型相同。

n元模型在英文中复数、词性、词格、时态等变化中起到了与降低错误拼写影响的类似作用。

在实际应用中大多取n为3或4(随着计算机硬件技术的增长,以及网络的发展对信息流通的促进,已经有n取更大数值的实际应用。);多词级别语义特征

多词级别(Multi-WordLevel)指用多个词作为文本的特征项。

应用名词短语作为特征项,这种方法也称作SyntacticPhraseIndexing。

不考虑词性,只从统计角度根据词之间较高的同现频率(co-occurfrequency)来选取特征项。

采用名词短语或者同现高频词作为特征项,需要考虑特征空间的稀疏性问题。;

实现语义级别(SemanticLevel)和语用级别(PragmaticLevel)可以提供更强的文本表示能力,进而得到更理想的文本分类效果。

目前阶段,还无法通过自

文档评论(0)

祝星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档