最新SEWM2007垃圾邮件过滤系统评测.pptVIP

下载本文档

6
0
约4.26千字
约 53页
2018-08-18 发布于湖北
举报
版权申诉

最新SEWM2007垃圾邮件过滤系统评测.ppt

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最新SEWM2007垃圾邮件过滤系统评测.ppt

垃圾邮件来源真实垃圾邮件校园网垃圾邮件过滤系统过滤下来的垃圾邮件用户报告垃圾邮件涵盖90%以上的垃圾邮件 * 数据集加工—去除垃圾邮件冗余（1）超过60%的垃圾邮件为重复发送 * 数据集加工—去除垃圾邮件冗余（2）去除方法基于模糊指纹仅有细小差别的邮件视为相同适当保留少量冗余（2～5封）去除结果 Public数据集样本大小：234,592 挑选结果：45,000 Private数据集样本大小：317,714 挑选结果：55,506 初始候选集： 2,000,000 * 数据集加工—合成正常邮件使用真实邮件的头信息从Web上抓取邮件内容多类别、多编码、以中文为主自动生成附件长度分布与实际情况吻合考虑与垃圾邮件特征词的适当交叉加入部分实际正常邮件（由志愿者贡献） * 数据集加工—后续处理去除（可能的）隐私信息 IP地址、服务器名、用户名等选择典型时段选择标准邮件数量到达频次按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。重新命名封装打包 * 数据集主要分为两个部分，一部分为公开数据集（Public Corpus）共60000封（ 45,000 垃圾邮件＋15,000正常邮件）提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库；另一部分为不公开数据集（Private Corpus）共75506（ 55,506 垃圾邮件＋20,000正常邮件）封作为测评主办单位主要评测标准。两个数据集都是由数据文件（data）和索引文件（index）组成，Private数据集的索引文件则不公开数据集生成结果 * 垃圾邮件样本示例文字变形—影响过滤器的特征词提取干扰文字—改变邮件的词频分布特征细微差别—避开基于校验码的过滤器图片变形—OCR也无能为力文字变图—图片垃圾是spammers的利器 * 垃圾邮件样本示例—文字变形（1） * 垃圾邮件样本示例—文字变形（2） * 垃圾邮件样本示例—文字变形（3） Viagra的多种拼写：共600,426,974,379,824,381,952种拼写方式！ * 垃圾邮件样本示例—干扰文字垃圾信息干扰文字 * 垃圾邮件样本示例—细小差别(1) * 垃圾邮件样本示例—细小差别(2) * 垃圾邮件样本示例—图片变形(1) * 垃圾邮件样本示例—图片变形(2) * 垃圾邮件样本示例—文字变图邮件的全部内容----图片 * 数据集统计特征 * 测评邮件集相关数据统计（1） * 测评邮件集相关数据统计（2）邮件中转次数统计 * 测评邮件集相关数据统计（3）邮件类型统计 * 测评邮件集相关数据统计（4）邮件附件类型统计 * 评测标准 * 本次测评根据测评工具得出的二元判别结果（垃圾邮件还是正常邮件）为原始数据，根据人为判断后得出的结果（index文件中的判别）为答案，计算出过滤器的误过滤hm%、sm%，根据hm%、sm%得到三个指标：平均误过滤lam%、ROCA、h=.1 测评标准 * 测评类型离线型先用Public集训练，再用Private集测试在线型（反馈）边测试Private集边对过滤器进行训练 * hm%：正常邮件错误判断为垃圾邮件的误过滤率 sm%：垃圾邮件错误判断为正常邮件的误过滤率（1－ROCA）％：以hm%为横坐标，以sm%为纵坐标，取不同的阈值t时，做ROC曲线，求ROC曲线上方面积。 h=.1：hm%=0.1时，sm%的值三个指标数值越小，表示垃圾邮件过滤系统性能越好；最后将根据（1－ROCA）％值为最终判断，lam%、h=.1作为参考测评相关公式 * 对于每个邮件，过滤器会产生一个score值，反映该邮件为spam的可能性。过滤器会确定自己的阈值t；当scoret时，邮件为spam，否则，邮件为ham 若确定了所有邮件的score值，我们可以通过动态调整阈值t来获得每种可能的hm％以及对应的sm％，即通过动态调整阈值t，我们可以将sm％表示成hm％的某个函数，从而画出ROC曲线图测评标准－ROCA计算原理参考：TREC 2005 Spam Track Overview * 测评标准－ROCA计算原理 ROC曲线下面部分的面积反映了在所有可能值上过滤器效率（effectiveness）的一个累计度量，从而避免用单一的hm％或sm％进行衡量的局限性。当我们衡量failure，而非effectiveness时，可以使用(1-ROCA)％，此时则对应于ROC曲线上面部分的面积。 * 评测结果分析 * 参赛队伍测试结果 ZJU HAINU ham