[发明专利]基于分布的垃圾邮件分类数据的安全属性选择方法有效
申请号: | 202010235982.8 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111461199B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 梁远超;陈百基 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06F18/2113;H04L51/42;H04L51/212 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布 垃圾邮件 分类 数据 安全 属性 选择 方法 | ||
本发明公开了一种基于分布的垃圾邮件分类数据的安全属性选择方法,包括步骤:1)获取给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;2)计算数据集每个属性的泛化能力,即属性与类别之间的对称不确定性;计算数据集每个属性的安全性,即属性的两类样本之间的EM距离值;3)对每个属性的泛化能力和安全性进行加权和,得到属性的评估值;4)根据属性的评估值和需要选择的属性个数选择出若干个属性;5)让数据集的数据部分仅保留已选择属性,供后续垃圾邮件分类算法使用。本发明解决了传统属性选择方法对安全性问题缺乏考虑的不足,同时改善了现有安全属性选择方法,减少计算泛化能力的时间开销,能更精确地评估属性的安全性。
技术领域
本发明涉及计算机数据处理和机器学习的技术领域,尤其是指一种基于分布的垃圾邮件分类数据的安全属性选择方法。
背景技术
随着机器学习的数据集规模的增大和复杂性的增加,数据集的样本、属性数目均越来越多,一些数据集拥有数万甚至数十万个样本或属性,这导致了机器学习过程的时间开销过大。除此之外,机器学习本身所存在的安全性问题也逐渐开始暴露出来。一些机器学习系统如垃圾邮件分类系统、无线入侵检测系统均对安全问题极为敏感,攻击者对系统的了解和进行攻击的手段均越来越多。
为降低计算机运行机器学习程序的时间和空间成本,去除冗余属性以避免它们干扰学习器的正常学习,数据降维成为了机器学习领域中的重要课题,属性选择是对机器学习数据集进行降维的重要方法之一。而传统的属性选择方法只考虑了如何给机器学习分类器提供更利于其分类的属性,没有考虑这些属性是否容易被攻击者恶意修改。为了让选出的属性既能有利于机器学习方法对数据进行分类(泛化能力强),又保证攻击者难以修改这些属性(安全性高),目前已有的研究提出了采用对属性的泛化能力、安全性进行加权和的思路来平衡这两者在属性中的重要性。目前在这种思路下已有的属性选择手段有两种:1、在给定具体分类器的情况下,以属性的分类准确率作为泛化能力;样本在分类器中通过梯度下降方式进行修改以跨过分类边界时,攻击前的样本、攻击后形成的新样本之间的欧式距离作为安全性。该方法的优点是能为给定分类器较为精准地选出最合适的属性,但也存在两大问题:它仅针对特定分类器设计,若更换分类器则需重新进行属性选择;属性选择过程中用到了机器学习方法,需要频繁进行训练和测试,时间开销较大。2、用属性和类别的相关性减去属性之间的冗余度作为泛化能力;正样本到最邻近负样本距离的平均值作为安全性。相较于手段1),其优势在于完成属性选择的时间开销更少,且使用了数据的固有特性来评估属性的好坏,因此所选属性适用于不同类型的分类器。但取最邻近样本的距离的这个评估安全性的指标对数据中的异常值会比较敏感,当负样本的异常值落在正样本空间中的时候,该异常值负样本会成为大多数正样本的最邻近样本,而实际分类器的决策边界并不会因少量异常值而轻易改变,即该方法对安全性的计算会因少量异常值样本的存在而变得不准确;除此之外对二值型变量(又称布尔变量)的安全性计算也不准确:由于正样本和负样本的二值属性的取值都只能为0或1,前n个属性对应的取值有2n种,当数据集样本的总数多于100个,甚至上千个时,在选前几个甚至十几个属性的时候,正样本到最邻近负样本的距离会衡为零(所有样本在所选的少数属性中,总能找到取值和它完全相同的样本)。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于分布的垃圾邮件分类数据的安全属性选择方法,解决传统属性选择方法对属性的安全性欠缺考虑、现有安全属性选择方法无法同时兼顾分类器适用性和准确性的问题。沿用背景技术中提及的将泛化能力和安全性加权和的形式,从数据的固有特性出发,用时间开销进一步减小的对称不确定性作为衡量属性的泛化能力的指标,用精确度更高的基于分布的EM距离作为衡量属性的安全性的指标。
为实现上述目的,本发明所提供的技术方案为:基于分布的垃圾邮件分类数据的安全属性选择方法,包括以下步骤:
1)获取基本数据,包括给垃圾邮件分类算法使用的邮件数据集、需要选择的属性个数;其中,所述邮件数据集包含数据和类别两部分,所述需要选择的属性个数为不大于数据集属性总数的正整数,根据实际需要而定,在此设其为k;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010235982.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:触控面板及触控显示面板
- 下一篇:交互方法及电子设备