最新SEWM2007垃圾邮件过滤系统评测.pptVIP

最新SEWM2007垃圾邮件过滤系统评测.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最新SEWM2007垃圾邮件过滤系统评测.ppt

垃圾邮件来源 真实垃圾邮件 校园网垃圾邮件过滤系统过滤下来的垃圾邮件 用户报告垃圾邮件 涵盖90%以上的垃圾邮件 * 数据集加工—去除垃圾邮件冗余(1) 超过60%的垃圾邮件为重复发送 * 数据集加工—去除垃圾邮件冗余(2) 去除方法 基于模糊指纹 仅有细小差别的邮件视为相同 适当保留少量冗余(2~5封) 去除结果 Public数据集 样本大小:234,592 挑选结果:45,000 Private数据集 样本大小:317,714 挑选结果:55,506 初始候选集: 2,000,000 * 数据集加工—合成正常邮件 使用真实邮件的头信息 从Web上抓取邮件内容 多类别、多编码、以中文为主 自动生成附件 长度分布与实际情况吻合 考虑与垃圾邮件特征词的适当交叉 加入部分实际正常邮件(由志愿者贡献) * 数据集加工—后续处理 去除(可能的)隐私信息 IP地址、服务器名、用户名等 选择典型时段 选择标准 邮件数量 到达频次 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。 重新命名 封装打包 * 数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共60000封( 45,000 垃圾邮件+15,000正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)共75506( 55,506 垃圾邮件+20,000正常邮件)封作为测评主办单位主要评测标准。 两个数据集都是由数据文件(data)和索引文件(index)组成 ,Private数据集的索引文件则不公开 数据集生成结果 * 垃圾邮件样本示例 文字变形—影响过滤器的特征词提取 干扰文字—改变邮件的词频分布特征 细微差别—避开基于校验码的过滤器 图片变形—OCR也无能为力 文字变图—图片垃圾是spammers的利器 * 垃圾邮件样本示例—文字变形(1) * 垃圾邮件样本示例—文字变形(2) * 垃圾邮件样本示例—文字变形(3) Viagra的多种拼写: 共600,426,974,379,824,381,952种拼写方式! * 垃圾邮件样本示例—干扰文字 垃圾信息 干扰文字 * 垃圾邮件样本示例—细小差别(1) * 垃圾邮件样本示例—细小差别(2) * 垃圾邮件样本示例—图片变形(1) * 垃圾邮件样本示例—图片变形(2) * 垃圾邮件样本示例—文字变图 邮件的全部内容----图片 * 数据集统计特征 * 测评邮件集相关数据统计(1) * 测评邮件集相关数据统计(2) 邮件中转次数统计 * 测评邮件集相关数据统计(3) 邮件类型统计 * 测评邮件集相关数据统计(4) 邮件附件类型统计 * 评测标准 * 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标: 平均误过滤lam%、ROCA、h=.1 测评标准 * 测评类型 离线型 先用Public集训练,再用Private集测试 在线型(反馈) 边测试Private集边对过滤器进行训练 * hm%:正常邮件错误判断为垃圾邮件的误过滤率 sm%:垃圾邮件错误判断为正常邮件的误过滤率 (1-ROCA)%:以hm%为横坐标,以sm%为纵坐标,取不同的阈值t时,做ROC曲线,求ROC曲线上方面积。 h=.1:hm%=0.1时,sm%的值 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据(1-ROCA)%值为最终判断,lam%、h=.1作为参考 测评相关公式 * 对于每个邮件,过滤器会产生一个score值,反映该邮件为spam的可能性。过滤器会确定自己的阈值t;当scoret时,邮件为spam,否则,邮件为ham 若确定了所有邮件的score值,我们可以通过动态调整阈值t来获得每种可能的hm%以及对应的sm%,即通过动态调整阈值t,我们可以将sm%表示成hm%的某个函数,从而画出ROC曲线图 测评标准-ROCA计算原理 参考:TREC 2005 Spam Track Overview * 测评标准-ROCA计算原理 ROC曲线下面部分的面积反映了在所有可能值上过滤器效率(effectiveness)的一个累计度量,从而避免用单一的hm%或sm%进行衡量的局限性。 当我们衡量failure,而非effectiveness时,可以使用(1-ROCA)%,此时则对应于ROC曲线上面部分的面积。 * 评测结果分析 * 参赛队伍测试结果 ZJU HAINU ham

您可能关注的文档

文档评论(0)

liuxiaoyu92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档