- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
本文设计并实现了一个基于机器学习算法的文本自动分类系统,以新浪新闻内
容作为初始分类数据,使用支持向量机为基分类器,构造出一个能够分类文本信息
的分类系统。
本文所设计的分类器是通过有监督学习而成的分类器,本文对分类系统的原理
做了重点介绍。本文所设计的分类器基于支持向量机算法(SVM),并详细分析 SVM
算法的原理以及在文本分类领域中的应用。
本文介绍了文本的自动分类技术,并对预处理、中文分词、文本特征提取,模
型的训练和分类四个模块做出介绍。通过探究分类器自身参数和 SVM 核函数的选
择对分类效果的影响,并在此基础上进行改进,最终设计出了较好的中文文本分类
模型。
本文最后介绍了文本分类技术在目前发展的前景,并对未来文本挖掘技术提出
了期望和展望。
关键词:SVM;机器学习;文本分类;核函数
I
Abstract
In this paper an automatic text classification system based on machine learning
algorithm is designed and implemented. Sina news content is taken as the initial
classification data and support vector machine is used as the basic classifier to construct a
classification system capable of classifying text information.
The classifier designed in this paper is one based on supervised learning. The
classifier designed in this paper is based on support vector machine algorithm (SVM),
and the principle of SVM algorithm and its application in text classification are analyzed
in detail.
This paper introduces the automatic text classification technology and four modules:
preprocessing, Chinese word segmentation, text feature extraction, model training and
classification. By exploring the influence of the classifiers own parameters and the
selection of SVM kernel functions on the classification effect, and improving on this
basis, a better Chinese text classification model is finally designed.
At last, this paper introduces the prospect of text classification technology at present,
and puts forward the expectation and prospect of text mining technology in the future.
Key words: SVM; Machine Learning; Text classification; Kernel function
您可能关注的文档
- 基于深度学习的行人重识别算法设计.pdf
- 基于哈佛分析框架的轻资产企业财务 分析——以A企业为例.pdf
- 基于WiFi信号强度定位算法模拟.pdf
- 基于BIM技术的某市滨河花园居民改建工程投标文件编制.pdf
- 霍州市方言与普通话的比较分析.pdf
- 霍尔果斯口岸的发展现状及对策分析.pdf
- 货币政策影响居民储蓄行为的有效性分析+论文 .pdf
- 淮安方言与普通话的比较分析.pdf
- 怀集县农村小学教育调研报告.pdf
- 护患关系现状分析与护理对策论文.pdf
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)