[发明专利]一种垃圾邮件识别方法及装置、计算机可读存储介质有效
申请号: | 202010386114.X | 申请日: | 2020-05-09 |
公开(公告)号: | CN113630302B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 周笑添;张琼;康杨杨;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L51/42 | 分类号: | H04L51/42 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陶丽;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾邮件 识别 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种垃圾邮件识别方法及装置、计算机可读存储介质,所述方法包括:提取邮件中的样式数据和第一文本数据;将第一文本数据按类别进行拆分;对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各类别的文本特征向量,将各类别的文本特征向量拼接为总文本特征向量;将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;将多模态融合向量输入多模态融合神经网络模型,以识别邮件是否为垃圾邮件。本申请通过提取邮件中的样式数据和第一文本数据,对样式数据和第一文本数据进行特征提取及多模态融合,提高了学习效果,从而识别出从纯邮件正文端难以识别的垃圾邮件,全面提升了邮件反垃圾能力。
技术领域
本申请涉及但不限于电子邮件技术领域,尤其涉及一种垃圾邮件识别方法及装置、计算机可读存储介质。
背景技术
随着移动互联网时代的来临,人们通过邮件来发送/接收信息也越来越普遍。凡是未经用户许可就强行发送到用户的邮箱中的任何电子邮件都是垃圾邮件。垃圾邮件危害特别大,会占用大量网络带宽,浪费存储空间,影响网络传输和运算速度,造成邮件服务器拥堵,降低了网络的运行效率,严重影响正常的邮件服务。垃圾邮件以其数量多、反复性、强制性、欺骗性、不健康性和传播速度快等特点,严重干扰用户的正常生活,侵犯收件人的隐私权和信箱空间,并耗费收件人的时间、精力和金钱。
传统垃圾邮件的识别方法有很多种,一些方法是基于关键词规则来识别,譬如邮件正文出现“请留下您的信用卡密码”、“若不激活,则会永久封号”等内容的邮件大概率属于垃圾邮件。还有一些方法引入机器学习的技术,通过将整篇邮件文本表征成特征向量,将特征向量输入垃圾邮件分类模型中,判断其是否为垃圾邮件。这些方法都能对垃圾邮件做到一定的处理,但都只是从单纯文本特征的角度对邮件建模进行是否为垃圾邮件的判断,因此,只能提供有限的防护。
发明内容
本申请提供了一种垃圾邮件识别方法及装置、计算机可读存储介质,能够全面提升反垃圾邮件能力。
本申请实施例提供了一种垃圾邮件识别方法,包括:提取邮件中的样式数据和第一文本数据;将第一文本数据按类别进行拆分,得到多个类别的第一文本数据;对样式数据以及多个类别的第一文本数据分别进行特征提取,得到样式特征向量和各个类别的文本特征向量,将各个类别的文本特征向量拼接为总文本特征向量;将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量;将多模态融合向量输入训练好的多模态融合神经网络模型,以识别所述邮件是否为垃圾邮件。
在一些可能的实现方式中,所述样式数据包括字符格式和段落格式,其中,字符格式包括字体、字号和文字颜色,段落格式包括文字对齐方式、段落缩进格式和段落间距。
在一些可能的实现方式中,所述类别包括以下任意一个或多个:邮件别名、邮件主题、邮件正文、发件人、邮件附件。
在一些可能的实现方式中,所述对样式数据以及多个类别的第一文本数据分别进行特征提取,包括:通过多视角表示学习的方式对样式数据以及多个类别的第一文本数据分别进行特征提取。
在一些可能的实现方式中,所述将样式特征向量和总文本特征向量进行多模态融合,得到多模态融合向量,包括:分别基于样式特征向量和总文本特征向量,计算各模态映射激活结果:Hv=tanh(Wv),Ht=tanh(Wt),其中,tanh表示双曲正切函数,用作各模态激活函数,v为样式特征向量,t为总文本特征向量,Wv为样式特征向量对应的权重矩阵,Wt为总文本特征向量对应的权重矩阵,Hv为样式特征向量对应的映射激活结果,Ht为总文本特征向量对应的映射激活结果;基于样式特征向量和总文本特征向量,计算多模态映射激活信息z,z=Sigmoid(W[v,t]),W[v,t]为样式特征向量和总文本特征向量拼接后的总特征向量对应的权重矩阵,Sigmoid为多模态激活函数;根据各模态映射激活结果和多模态映射激活信息,计算多模态融合向量H,H=z*Hv+(1-z)Ht。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010386114.X/2.html,转载请声明来源钻瓜专利网。