[发明专利]一种垃圾邮件检测的方法和设备有效
申请号: | 201410312489.6 | 申请日: | 2014-07-02 |
公开(公告)号: | CN104038391B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 林洋港;潘照明;周森 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/58 |
代理公司: | 北京信远达知识产权代理事务所(普通合伙)11304 | 代理人: | 赵百令,刘大玲 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 检测 方法 设备 | ||
1.一种垃圾邮件检测的方法,包括:
响应于接收待测邮件,从所述待测邮件中解析脚注声明标签,并将所述脚注声明标签作用范围内的内容确定为待验证脚注;
提取所述待验证脚注的属性特征,并依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性;所述真伪脚注分类模型为预先基于历史真脚注的属性特征与所述历史真脚注之间的对应关系以及历史伪脚注的属性特征与所述历史伪脚注之间的对应关系而建立的;
响应于所述待验证脚注被检测为真脚注,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;
响应于所述待验证脚注被检测为伪脚注,基于所述待测邮件中的所有内容,对所述待测邮件进行垃圾邮件检测。
2.根据权利要求1所述的方法,所述真伪脚注分类模型包括至少一个决策树。
3.根据权利要求2所述的方法,所述决策树的建立过程具体包括:
以所述决策树的根节点作为当前节点,为所述当前节点选取多个历史脚注组成当前样本集合;
判断所述当前样本集合中各历史脚注的真伪性;
响应于所述当前样本集合中仅存在历史真脚注,将所述当前节点确定为表示检测结果为真脚注的叶子节点;
响应于所述当前样本集合中仅存在历史伪脚注,将所述当前节点确定为表示检测结果为伪脚注的叶子节点;
响应于所述当前样本集合中同时存在历史真脚注和历史伪脚注,执行如下步骤:
为所述当前节点选取一种属性特征作为当前划分属性;
按照所述当前划分属性的特征阈值与所述当前样本集合中各历史脚注属于所述当前划分属性的属性特征,将所述当前样本集合中各历史脚注划分成两个不同的样本子集合,以使两个所述样本子集合具有历史脚注的真伪性区分度;
在所述当前节点上为两个所述样本子集合构造两个子节点,并分别以两个所述子节点作为当前节点,以所述当前节点的样本子集合作为当前样本集合,返回执行所述判断所述当前样本集合中各历史脚注的真伪性。
4.根据权利要求2所述的方法,所述依据所述待验证脚注的属性特征,利用真伪脚注分类模型检测所述待验证脚注的真伪性,包括:
在所述真伪脚注分类模型的各个决策树上,从根节点开始,按照各个节点的划分属性及特征阈值确定所述待验证脚注所属的各级节点,直至在各个决策树上确定所述待验证脚注所属的叶子节点,作为各个决策树对所述待验证脚注的检测结果节点;
响应于所述检测结果节点中表示检测结果为真脚注的节点数量大于决策阈值,将所述待验证脚注检测为真脚注;
响应于所述检测结果节点中表示检测结果为真脚注的节点数量不大于决策阈值,将所述待验证脚注检测为伪脚注。
5.根据权利要求1所述的方法,还包括:
响应于将所述脚注声明标签作用范围内的内容确定为待验证脚注,将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配;
响应于所述待验证脚注具有相匹配的历史真脚注模板,基于所述待测邮件中去除所述待验证脚注的剩余内容,对所述待测邮件进行垃圾邮件检测;
响应于所述待验证脚注不具有匹配的历史真脚注模板,进入执行所述提取所述待验证脚注的属性特征。
6.根据权利要求5所述的方法,还包括:
响应于所述待验证脚注被检测为真脚注,基于所述待验证脚注形成待验证模板,并统计所述待验证模板的形成次数;
响应于所述形成次数达到记录阈值,收集所述待验证模板脚注作为历史真脚注模板。
7.根据权利要求5所述的方法,其中,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行匹配,具体为将待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配。
8.根据权利要求7所述的方法,所述将所述待验证脚注与预先收集的各个历史真脚注模板进行模糊匹配,包括:
对所述待验证脚注进行模糊处理,得到所述待验证脚注的简化信息;
从所述简化信息中提取信息摘要的特征码,作为所述待验证脚注的待匹配信息;
在预先收集的历史真脚注模板中查找与所述待匹配信息相同的历史真脚注模板;其中,查找到的历史真脚注模板为与所述待验证脚注相匹配的历史真脚注模板,所述历史真脚注模板为历史真脚注经过模糊处理和提取信息摘要特征码之后而形成的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410312489.6/1.html,转载请声明来源钻瓜专利网。