中文垃圾邮件-Indexof.PPTVIP

下载本文档

8
0
约1.26千字
约 19页
2018-05-05 发布于天津
举报
版权申诉

中文垃圾邮件-Indexof.PPT

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文垃圾邮件-Indexof

中文垃圾邮件过滤系统的实现和评估田莹北京清华大学网络中心 Email:tianying00@ 概要引言研究背景中文垃圾邮件过滤系统的实现中文垃圾邮件过滤系统的评估最新研究进展及结论引言垃圾邮件的定义垃圾邮件的危害反垃圾邮件的意义 Email，短信，VoIP电话…… 垃圾邮件的特性反垃圾邮件的方法黑白名单关键字匹配贝叶斯 SVM Etc. 基于内容的过滤器的流程图英文垃圾邮件的贝叶斯过滤流程收集两个数据库垃圾邮件数据库正常邮件数据库在每一个数据库中，学习并定义出一些关键词，计算这些关键词的概率新邮件到来时，计算出新到来的邮件中包含的关键词的联合概率通过联合概率判断新到来的邮件是否是垃圾邮件中文邮件的预处理中文分词的概念分词算法基于字符串匹配基于理解基于统计中文分词的词典基于整词二分基于TRIE索引树基于逐字二分实验数据来源 CCERT提供 /spam/index.htm 训练用邮件数 5000 测试用邮件数 500 评估指标定义L为正常邮件，S为垃圾邮件。S→L表示将垃圾邮件判定为正常邮件，同理，L→S表示将正常邮件判定为垃圾邮件。在文本分类问题中，有两个评估指标被经常使用。 Acc称为正确率。Err称为错误率。这里表示将正常邮件判断为正常邮件的个数。的含义可以类推。和分别表示待判定的正常邮件和垃圾邮件的总个数。评估指标（续1）考虑到L→S和 S→L分别会有不同的代价，并设L→S的代价是S→L的代价的λ倍，我们定义两个新的评估指标，分别是WAcc（加权的正确率）和WErr（加权的错误率）在没有过滤的情况下（无论是正常邮件还是垃圾邮件一律通过），我们得到基准WAcc和基准WErr分别为：评估指标（续2）为了方便比较，定义比率R为不难看出R越大，过滤的效果越好。R如果小于1，意味着过滤比不过滤效果还差参数说明我们的算法中有两个重要的参数用于训练的样本个数n 在过滤中计算最终概率的特征数目m 实验中，主要研究R和n以及R和m之间的相互关系。实验结果实验结果说明在过滤中计算最终概率的特征数目m以及用于训练的样本个数n都存在某个最优值当用于训练的样本个数逐渐超过这个最优值时，过滤效果会略微下降并趋于一致。最新研究进展相关会议 MIT spam conference CEAS（电子邮件和反垃圾邮件会议）贝叶斯过滤发展方向从单一关键词到关键词链从线性到非线性从单一用户到综合多用户从客户端到服务器利用电子邮件网络 Etc. 系统和产品微软公司：SmartProof IBM公司：SpamGuru Etc. 结论反垃圾邮件的挑战谢谢大家 Q A * * 图1 R-m关系图图2 R-m关系图图3 R-m关系图图4 R-n关系图