一种关键字过滤系统下的DFA分词算法设计与优化.pdf

一种关键字过滤系统下的DFA分词算法设计与优化.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种关键字过滤系统下的DFA分词算法设计与优化.pdf

第29卷第1期 计算机应用与软件 V0I.29No.1 2012年 1月 ComputerApplicationsandSoftware Jan.2012 一 种关键字过滤系统下的DFA分词算法设计与优化 刘 利 俊 (杭州科技职业技术学院电教网络 中心 浙江 杭州 310012) 摘 要 lnternet的迅猛发展和电子商务应用的 日益普及,越来越多的网络应用程序需要高效地对违禁用语、禁限售商品等关键 字进行高效过滤和处理。分析关键字过滤的基本啄理,对现有关键字过滤算法进行 了优化和功能增强,设计并实现了一个实时环境 下互联 网关键字过滤系统。 关键词 中文分词 DFA 双数组 中图分类号 TP301 文献标识码 A A DFA PARTICIPLE ALGORITHM DESIGN AND OPTIM IZATIoN IN A KEYW oRD FILTRATIoN SYSTEM LiuLiiun (Center0厂ElectrfiiedEducationandNetwork,HangzhouAcademyofScientcProfessionalTechnology,Hangzhou310012,Zhejiang,China) Abstract WiththerapiddevelopmentofInternetandpopularizationofE—business,moreandmorenetworkapplicationsneedtoefficiently filterandhandlesuchkeywordsasforbiddenlanguagesandforbidden/restrictedcommoditynames.Thepaperanalyzesthebasicprinciplesof keywordfiltration,optimizestheexistingkeywordsfiltrationalgorithm andenhancesitsfunction,anddesignsandrealizesarealtimeInternet keywordfiltrationsystem. Keywords Chineseparticiple DFA Doublearray 占用情况。 0 引 言 1.2 文档预处理 由于文档中不仅包含文本信息,还包括了格式等信息,在扫 Internet的迅猛发展对企业发展和个人生活都产生了深刻 描的过程中,需要对文档本身进行可读信息部分的提取。互联 影响,互联网在给我们带来海量有用信息的同时也带来了大量 网信息基本以HTMI文档为主,预处理的主要工作是:HTMI 的不良信息,如何对互联网信息进行有效的内容监测是亟待解 文档的标签去除,繁体字向简体字转化,特殊符号剔除,同音字 决的问题。目前 ,通常采用关键字过滤系统对这些不 良信息进 处理,全角字符向半角字符转化等。 行甄别和处理,这些系统的实施对不 良信息的过滤起到了一定 1.3 文档扫描 的效果,但同时也还存在一些不足之处:不良信息的传播者经常 文档分为历史文档和实时显示文档,对于文本的扫描非常 通过改变关键字的形式来躲过检查,关键字过滤算法在实时环 耗费CPU资源。因为文档的大小是动态的,我们可能对 1k或 境下还不够高效等。通过对现有的关键

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档