[发明专利]垃圾邮件识别方法、装置、设备及计算机可读存储介质有效
申请号: | 202310294582.8 | 申请日: | 2023-03-24 |
公开(公告)号: | CN116016416B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 温桂龙 | 申请(专利权)人: | 深圳市明源云科技有限公司 |
主分类号: | H04L51/212 | 分类号: | H04L51/212;H04L51/42 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 王丽峰 |
地址: | 518000 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾邮件 识别 方法 装置 设备 计算机 可读 存储 介质 | ||
本申请公开了一种垃圾邮件识别方法、装置、设备及计算机可读存储介质,涉及网络技术领域,所述方法包括:对待识别邮件的邮件内容进拆分得到多个特征词组;将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。可以理解的是,相比于传统方案,本申请通过待识别邮件的完整内容以及增加的预测反馈信息来判断邮件是否为垃圾邮件可以使得判断结果更加符合邮箱使用者预期,从而提高识别结果的准确性,减少错误识别的情况,提高用户使用体验。
技术领域
本申请涉及网络技术领域,尤其涉及一种垃圾邮件识别方法、装置、设备及计算机可读存储介质。
背景技术
目前,在企业内部和企业之间的沟通中,邮件是最重要且正式的沟通形式。但是邮件又容易被滥用,例如通过邮件发布广告,对接收方造成不便,即便邮件的发送方是较为权威的机构或者企业。同时邮件也容易成为攻击者发起攻击的渠道,例如攻击通过向企业内部发送大量的垃圾信息骗取企业内部的信息造成企业损失等,上述邮件均可被成为垃圾邮件。目前虽然有识别并过滤垃圾邮件的方案,但是仍然会有较大概率出现错误识别情况,从而造成邮箱使用者不便的问题。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种垃圾邮件识别方法、装置、设备及计算机可读存储介质,旨在解决传统识别并过滤垃圾邮件的方案仍然会有较大概率出现错误识别情况从而造成邮箱使用者不便的技术问题。
为实现上述目的,本申请提供一种垃圾邮件识别方法,所述垃圾邮件识别方法包括以下步骤:
对待识别邮件的邮件内容进拆分得到多个特征词组;
将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息;
基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。
进一步地,所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括:
基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值,其中,初始的特征词组合集由拆分得到的所述特征词组组成;
将所述特征词组合集中的各所述特征词组合并生成新的特征词组,并基于新的特征词组生成新的预测反馈信息;
将所述特征词组合集中的特征词组更新替换为各新的特征词组;
返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤,直至新的特征词组为所述待识别邮件的全文内容;
基于各所述垃圾邮件中间概率值计算得到所述待识别邮件为垃圾邮件的综合概率;
若所述综合概率大于预设阈值,则将所述待识别邮件作为垃圾邮件。
进一步地,所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤包括:
将特征词组合集中各所述特征词组和各所述预测反馈信息分别输入至第二预训练模型得到各所述特征词组和各所述预测反馈信息的垃圾邮件贡献度;
基于各所述垃圾邮件贡献度计算所述待识别邮件的垃圾邮件中间概率值。
进一步地,所述将所述特征词组合集中的各所述特征词组合并生成新的特征词组的步骤包括:
从所述特征词组合集中获取目标特征词组,其中,所述目标特征词组为垃圾邮件贡献度最高的特征词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市明源云科技有限公司,未经深圳市明源云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310294582.8/2.html,转载请声明来源钻瓜专利网。