[发明专利]垃圾邮件识别方法、装置、设备及计算机可读存储介质有效

申请号：	202310294582.8	申请日：	2023-03-24
公开（公告）号：	CN116016416B	公开（公告）日：	2023-08-04
发明（设计）人：	温桂龙	申请（专利权）人：	深圳市明源云科技有限公司
主分类号：	H04L51/212	分类号：	H04L51/212;H04L51/42
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	王丽峰
地址：	518000 广东省深圳市南山区粤海街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	垃圾邮件识别方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种垃圾邮件识别方法、装置、设备及计算机可读存储介质，涉及网络技术领域，所述方法包括：对待识别邮件的邮件内容进拆分得到多个特征词组；将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息；基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。可以理解的是，相比于传统方案，本申请通过待识别邮件的完整内容以及增加的预测反馈信息来判断邮件是否为垃圾邮件可以使得判断结果更加符合邮箱使用者预期，从而提高识别结果的准确性，减少错误识别的情况，提高用户使用体验。

技术领域

本申请涉及网络技术领域，尤其涉及一种垃圾邮件识别方法、装置、设备及计算机可读存储介质。

背景技术

目前，在企业内部和企业之间的沟通中，邮件是最重要且正式的沟通形式。但是邮件又容易被滥用，例如通过邮件发布广告，对接收方造成不便，即便邮件的发送方是较为权威的机构或者企业。同时邮件也容易成为攻击者发起攻击的渠道，例如攻击通过向企业内部发送大量的垃圾信息骗取企业内部的信息造成企业损失等，上述邮件均可被成为垃圾邮件。目前虽然有识别并过滤垃圾邮件的方案，但是仍然会有较大概率出现错误识别情况，从而造成邮箱使用者不便的问题。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种垃圾邮件识别方法、装置、设备及计算机可读存储介质，旨在解决传统识别并过滤垃圾邮件的方案仍然会有较大概率出现错误识别情况从而造成邮箱使用者不便的技术问题。

为实现上述目的，本申请提供一种垃圾邮件识别方法，所述垃圾邮件识别方法包括以下步骤：

对待识别邮件的邮件内容进拆分得到多个特征词组；

将各所述特征词组输入至第一预训练模型得到各所述特征词组的预测反馈信息；

基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件。

进一步地，所述基于各所述特征词组和各所述预测反馈信息识别所述待识别邮件是否为垃圾邮件的步骤包括：

基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值，其中，初始的特征词组合集由拆分得到的所述特征词组组成；

将所述特征词组合集中的各所述特征词组合并生成新的特征词组，并基于新的特征词组生成新的预测反馈信息；

将所述特征词组合集中的特征词组更新替换为各新的特征词组；

返回至所述基于特征词组合集、所述特征词组合集对应的各所述预测反馈信息和第二预训练模型计算所述待识别邮件的垃圾邮件中间概率值的步骤，直至新的特征词组为所述待识别邮件的全文内容；