[发明专利]一种基于样本难度的垃圾邮件分类方法有效

申请号：	202010374804.3	申请日：	2020-05-06
公开（公告）号：	CN111582365B	公开（公告）日：	2022-07-22
发明（设计）人：	李雄飞;于爽;张小利;张维轩;王泽宇;罗茂	申请（专利权）人：	吉林大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q10/10
代理公司：	长春吉大专利代理有限责任公司 22201	代理人：	郭佳宁
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于样本难度垃圾邮件分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于机器学习分类技术领域，具体涉及一种基于样本难度的垃圾邮件分类方法；能够提高垃圾邮件分类的准确性和稳定性，本发明根据邮件样本的难度信息为每个邮件样本制定统一的误分类损失函数，然后根据最小化总体误分类损失的原则提出一种更可靠和稳定的分类器算法，并将该算法应用在垃圾邮件分类中；本发明方法更加注重对简单样本的正确分类，这符合认知规律，即在误分率大致相当的情况下，该分类方法在分类难度值越小的邮件样本上误分率越低，这使得该分类方法的可信度高，更加可靠、稳定，适用性更强。

技术领域

本发明属于机器学习分类技术领域，具体涉及一种基于样本难度的垃圾邮件分类方法。

背景技术

传统垃圾邮件分类器采用诸如朴素贝叶斯、k近邻、决策树、支持向量机、神经网络和AdaBoost等算法都是平等地对待不同邮件样本，并以最小化分类器的整体误分率为优化目标。实际上，许多带有混淆信息的邮件难以被人类和机器学习方法正确分类。在现实生活中，一些相对较难的邮件被错误分类通常是可以接受的，而一个可靠、稳定的垃圾邮件分类器应该能够避免错误分类简单的样本。并且，在误分率大致相当的情况下，垃圾邮件分类器在低难度样本上的误分率越小，该分类器的性能越好，这是符合认知规律的。然而，现在垃圾邮件分类领域内的方法完全忽略了这些重要的信息，大多数垃圾邮件分类器的设计只是关注对相对较难的样本进行正确分类，以达到更高的精度。而这些相对较难的样本很可能是异常值或噪音点，如果过于关注这些样本，很可能发生过拟合问题。

综上所述，如何在不损失分类准确率的情况下区分出这些难样本并减少其对垃圾邮件分类器泛化性能的影响是一个值得研究的问题。因此，有必要将样本的分类难度信息引入到垃圾邮件分类规则的设计中，以改善分类性能。

发明内容

为了克服上述问题，本发明提供一种基于样本难度的垃圾邮件分类方法，能够提高垃圾邮件分类的准确性和稳定性，本发明根据邮件样本的难度信息为每个邮件样本制定统一的误分类损失函数，然后根据最小化总体误分类损失的原则提出一种更可靠和稳定的分类器算法，并将该算法应用在垃圾邮件分类中；本发明方法更加注重对简单样本的正确分类，这符合认知规律，即在误分率大致相当的情况下，该分类方法在分类难度值越小的邮件样本上误分率越低，这使得该分类方法的可信度高，更加可靠、稳定，适用性更强。

一种基于样本难度的垃圾邮件分类方法，具体步骤包括：

步骤一：从统计学的角度，采用一个统一的计算规则来计算邮件样本的分类难度值，并将带有分类难度值的训练样本输入到分类器中，让分类器进行学习，得到弱分类器，带有分类难度值的训练样本指的是带标签的邮件训练样本，即带有标签为垃圾邮件的训练样本和标签为非垃圾邮件的训练样本；

步骤二：根据邮件样本的分类难度值计算邮件样本的误分类代价；

步骤三：根据邮件样本的误分类代价初始化邮件样本权重；

步骤四：根据初始邮件样本权重按照以下方法来训练步骤一中得到的弱分类器：

根据第一个弱分类器的表现对带有分类难度值的训练样本的分布进行调整，使得被前一个弱分类器错分的训练样本在后续迭代中更受重视，即增加其权重；同时，训练样本权重的更新规则还和训练样本的分类难度值成负相关，即在错分的训练样本中样本的分类难度值越小，样本获得的权重越大，则其在错分的训练样本中更受重视，而后根据调整后的训练样本分布来训练下一个弱分类器，如此重复训练直到迭代结束；

步骤五：运用基于自适应学习的函数模型将得到的全部弱分类器进行加权投票，获得最终结果，其中，f(χ_i)是指全部弱分类器进行加权投票后得到的最终分类器，即邮件分类结果，φ_t是按序调整数据分布而得到的第t个弱分类器，χ_i代表邮件样本，w是弱分类器的权重，w₀是初始化权重，w_t是指训练弱分类器的权重，T是迭代次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010374804.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于散热风扇运动实现计算机内存条灰尘清理装置
下一篇：一种磁环高度检测及划线设备和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于样本难度的垃圾邮件分类方法有效

专利文献下载