[发明专利]一种基于多粒度相对密度的标签噪声检测方法在审
申请号: | 201911222298.X | 申请日: | 2019-12-03 |
公开(公告)号: | CN111178387A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 夏书银;梁潇;刘群;王炳贵;陈百云 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 相对 密度 标签 噪声 检测 方法 | ||
本发明公开了一种基于多粒度相对密度的标签噪声检测方法,属于数据分类领域。该方法包括步骤:S1:基于多粒度相对密度的标签噪声检测方法利用KMeans算法将数据集划分为K个簇,计算每个样本在粒度上的改进相对密度。改进相对密度定义为,首先分别计算正、负样本的质心,然后求出样本分别到同类质心和异类质心的距离,并用该距离的比值作为该粒度下的改进相对密度;S2:改变K值,重复S1中的过程,计算每个样本在不同粒度下的改进相对密度;S3:将改进相对密度超过一定阈值的样本作为标签噪声。本发明将粒度计算引入到改进相对密度模型中,该方法比传统方法具有更高的效率。
技术领域
本发明涉及一种基于多粒度相对密度的标签噪声检测方法,属于数据分类领域。
背景技术
现实世界的数据总是存在缺陷,噪声数据的出现就是这种缺陷的结果。噪声处理是机器学习中的一项重要工作。在分类问题中,噪声主要分为两类:属性噪声和标签噪声。属性噪声是由输入属性的过程中出现错误引起的,而标签噪声是由于标签污染引起的。一般来说,标签噪声可能比属性噪声更加有害,首先,一个样本可能有多个特征,然而只有一个标签存在。第二,虽然每个特征都有其独特的重要性,但是标签对学习的影响总是更大。分类器的性能因标签噪声的存在而降低,并且模型的复杂度也增加了。此外,标签噪声和离群点噪声也存在着很大的差异。离群点检测是许多数据挖掘任务中的一个重要步骤,然而,有时离群数据样本对分类结果没有影响,而标签噪声是不同的。在许多实际场景中,检测和处理噪声已被证明在是有益的,噪声识别已成为机器学习的一个重要领域。
标签噪声是指那些其标签未被正确记录的噪声,主要由信息不足、编码和通信错误引起。事实上,噪声的存在是普遍的。首先,提供给专家的信息可能不足以使他们执行可靠的标记。例如,在许多交互式Web程序中,数据的标签是通过用户的实时反馈获得的。在医学领域,检测结果常常是未知且不完整的,而且有时医学语言描述的信息可能太有限,可用的信息不多,这种信息的不完整性也可能导致标签噪声。此外,在某些情况下,信息的质量很差或信息的准确性是不确定的,例如,病人在患病期间的回答可能不准确或不正确,甚至有时用重复的问题询问病人,病人反馈的答案也可能会不同,这也很容易导致标签噪声的出现。第二,人工标签本身可能发生错误。当然,这种分类的错误并不总是由人类专家造成的,因为自动分类设备现在也在不同的场景中使用。此外,由于收集可靠的标签是一项耗时而又昂贵的任务,因此从经验丰富的专业人员那里获得标签的现象是普遍的,但是根据专家的经验提供的标签不太可靠。第三,当打标签任务是个人主观行为时,例如,在医学图像数据分析应用中,一些专家可能会根据实际情况对标签做出一些的改变,也可能造成标签噪声的出现。第四,标签噪声也可能仅仅来自数据编码或通信问题。
标签噪声以不同方式影响分类器的学习性能。即使标签噪声分布均匀,大多数损失函数推导对标签噪声不鲁棒,包括AdaBoost的指数损失,逻辑回归的对数损失,以及SVM的hinge损失。AdaBoost会花费很多时间来学习标签噪声,因为AdaBoost会增加错误分类的样本的权重。此外,标签噪声还会影响BP神经网络和决策树的学习过程,以及kNN算法中的k值的选择和核分类器中核参数的选择。
噪声样本的存在严重影响了数据挖掘建模的效率,甚至可能导致挖掘结果的偏差。噪声样本往往使分类器效率低下,造成过拟合,严重影响了分类器的性能。因此,分类器学习之前需要对数据进行一系列的预处理。为了将标签噪声检测应用于分类器优化,最重要的是有效地检测标签噪声。到目前为止,已经广泛研究了两种主要的标签噪声检测技术,即基于分类器和基于距离测量的标签噪声检测技术。对于第一种检测方法,由于依赖特定分类器的学习,使得它难以使用特定分类器有效且高效地确保检测标签噪声,传统的噪声检测方法存在一定的局限性。对于第二种检测方法,由于标签噪声和异常具有一定的相似性,一些基于距离的异常检测技术可用于标签噪声的检测。然而,这些异常检测方法是无监督分类方法,不能充分利用不同类别的标签噪声的对比特性,而且它们对于复杂数据的处理能力是很差的,例如高维数据和不平衡数据。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911222298.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种考研培训质量综合评价系统
- 下一篇:一种学习互动方法及智能音箱