- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于信息增益的中文网页SVM分类研究-上海师范大学学报
4 2 3 ( ) Vol . 4 2 ,No . 3
第 卷第 期 上海师范大学学报 自然科学版
2 0 1 3 6 Journal of Shanghai Normal University (Natural Sciences) Jun . ,2 0 1 3
年 月
基于信息增益的中文网页SVM 分类研究
*
,
潘正才 陈海光
( , 200234)
上海师范大学信息与机电工程学院 上海
:
摘 要 针对 中文 网页文本分类中特征降 维方法和传统信息增益方 法的缺陷和不足做 出优化
, . ,
改进 旨在有效提高文本分类效率和精度 首先 采取词性过 滤和 同义词归并处理对特征 项进
, ,
行初 次特征降 维 然后提 出改进 的信息增益方法对特征项进行特征加权运算 最后采用支持向
量机( SVM) 分类算法对 中文 网页进行文本分类. 理论分析和 实验结果都表 明本方法比传统方
法具有更好的性能和分类效果.
: ; ; ; ;
关键词 信息增益方法 词性过滤 同义词归并 特征加权 支持向量机
: : :
中图分类号 TP 391. 4 文献标识码 A 文章编号 1000-5137 (2013)03-0277-06
0 引 言
, ,
随着互联网信息的迅猛发展 对海量信息进行有效组织和分类整理显得日益重要 而传统的人工分
, .
类方式已经变得几乎不可能 网页文本自动分类突显重要作用 文本分类是把未知文档归为已知类别中
. , ,
的一个或多个 目前 绝大多数文本分类模型采用空间向量形式表示文本文档 即文档向量由若干无序
的词或词组形式特征项组成, , ,
但是 这些特征项的向量维数往往过高或者代表性不强 从而导致分类运
、 . .
算开销大 准确率低等缺点 所以特征降维方法的优劣成为影响文本分类效果好坏的关键因素
,
一般的特征降维方法是从源文档特征集中抽取出对分类贡献大且具有代表性的特征项 本文作者
. ,
结合词性过滤和同义词归并处理技术对特征项进行第一次降维处理 然后 选择有效特征选择方法对特
, [1] (DF)、
征项进行二次处理 文献 指出目前比较成熟的特
文档评论(0)