中文垃圾邮件-Indexof.PPTVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文垃圾邮件-Indexof

中文垃圾邮件过滤系统 的实现和评估 田莹 北京 清华大学 网络中心 Email:tianying00@ 概要 引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论 引言 垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email,短信,VoIP电话…… 垃圾邮件的特性 反垃圾邮件的方法 黑白名单 关键字匹配 贝叶斯 SVM Etc. 基于内容的过滤器的流程图 英文垃圾邮件的贝叶斯过滤流程 收集两个数据库 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词,计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的关键词的联合概率 通过联合概率判断新到来的邮件是否是垃圾邮件 中文邮件的预处理 中文分词的概念 分词算法 基于字符串匹配 基于理解 基于统计 中文分词的词典 基于整词二分 基于TRIE索引树 基于逐字二分 实验数据来源 CCERT提供 /spam/index.htm 训练用邮件数 5000 测试用邮件数 500 评估指标 定义L为正常邮件,S为垃圾邮件。S→L表示将垃圾邮件判定为正常邮件,同理,L→S表示将正常邮件判定为垃圾邮件。 在文本分类问题中,有两个评估指标被经常使用。 Acc称为正确率。Err称为错误率。这里 表示将正常邮件判断为正常邮件的个数。 的含义可以类推。 和 分别表示待判定的正常邮件和垃圾邮件的总个数。 评估指标(续1) 考虑到L→S和 S→L分别会有不同的代价,并设L→S的代价是S→L的代价的λ倍,我们定义两个新的评估指标,分别是WAcc(加权的正确率)和WErr(加权的错误率) 在没有过滤的情况下(无论是正常邮件还是垃圾邮件一律通过),我们得到基准WAcc和基准WErr分别为: 评估指标(续2) 为了方便比较,定义比率R为 不难看出R越大,过滤的效果越好。R如果小于1,意味着过滤比不过滤效果还差 参数说明 我们的算法中有两个重要的参数 用于训练的样本个数n 在过滤中计算最终概率的特征数目m 实验中,主要研究R和n以及R和m之间的相互关系。 实验结果 实验结果说明 在过滤中计算最终概率的特征数目m以及用于训练的样本个数n都存在某个最优值 当用于训练的样本个数逐渐超过这个最优值时,过滤效果会略微下降并趋于一致。 最新研究进展 相关会议 MIT spam conference CEAS(电子邮件和反垃圾邮件会议) 贝叶斯过滤发展方向 从单一关键词到关键词链 从线性到非线性 从单一用户到综合多用户 从客户端到服务器 利用电子邮件网络 Etc. 系统和产品 微软公司:SmartProof IBM公司:SpamGuru Etc. 结论 反垃圾邮件的挑战 谢谢大家 Q A * * 图1 R-m关系图 图2 R-m关系图 图3 R-m关系图 图4 R-n关系图

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档