基于信息增益的中文网页SVM分类研究-上海师范大学学报.PDF

下载文档

1
0
约2.57万字
约 6页
2018-05-01 发布于天津
举报
版权申诉
保障服务

基于信息增益的中文网页SVM分类研究-上海师范大学学报.PDF

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于信息增益的中文网页SVM分类研究-上海师范大学学报

4 2 3 ( ) Vol ． 4 2 ，No ． 3 第卷第期上海师范大学学报自然科学版 2 0 1 3 6 Journal of Shanghai Normal University (Natural Sciences) Jun ．，2 0 1 3 年月基于信息增益的中文网页SVM 分类研究 * ，潘正才陈海光 ( ， 200234) 上海师范大学信息与机电工程学院上海 : 摘要针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化，．，改进旨在有效提高文本分类效率和精度首先采取词性过滤和同义词归并处理对特征项进，，行初次特征降维然后提出改进的信息增益方法对特征项进行特征加权运算最后采用支持向量机( SVM) 分类算法对中文网页进行文本分类．理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果． : ; ; ; ; 关键词信息增益方法词性过滤同义词归并特征加权支持向量机 : : : 中图分类号 TP 391． 4 文献标识码 A 文章编号 1000-5137 (2013)03-0277-06 0 引言，，随着互联网信息的迅猛发展对海量信息进行有效组织和分类整理显得日益重要而传统的人工分，．类方式已经变得几乎不可能网页文本自动分类突显重要作用文本分类是把未知文档归为已知类别中．，，的一个或多个目前绝大多数文本分类模型采用空间向量形式表示文本文档即文档向量由若干无序的词或词组形式特征项组成，，，但是这些特征项的向量维数往往过高或者代表性不强从而导致分类运、．．算开销大准确率低等缺点所以特征降维方法的优劣成为影响文本分类效果好坏的关键因素，一般的特征降维方法是从源文档特征集中抽取出对分类贡献大且具有代表性的特征项本文作者．，结合词性过滤和同义词归并处理技术对特征项进行第一次降维处理然后选择有效特征选择方法对特，［1］ (DF)、征项进行二次处理文献指出目前比较成熟的特