[发明专利]一种大数据在线噪声过滤系统与方法有效
申请号: | 202011319187.3 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112418313B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 雷建军;刘志文 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 在线 噪声 过滤 系统 方法 | ||
本发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法,所述方法包括根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除;本发明能够在线对传感器数据进行噪声过滤,提高数据质量。
技术领域
本发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法。
背景技术
近年来,人工智能技术发展迅速,机器学习技术也越趋成熟。机器学习的发展得益于大数据时代的海量训练样本。而样本集的质量是影响机器学习算法效率的一个重要因素。由于数据采集异常或者数据标注人员专业水平差异等原因,数据集中或多或少包含噪声样本。标签噪声是监督学习、半监督学习中不可忽略的问题。
目前处理标签噪声的方法主要有算法级的鲁棒性建模和数据级的噪声过滤。鲁棒性建模是指从算法层面构建不易受标签噪声影响的鲁棒性模型,但很多鲁棒性模型对标签噪声并不完全鲁棒。噪声过滤一般是通过模型预测的方法对噪声数据进行检测并移除,但建立噪声预测模型所使用到的数据本身含有标签噪声,使得模型预测可靠性不强。
发明内容
针对上述问题,本发明提出一种大数据在线噪声过滤系统与方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,对预处理后的数据集进行以下步骤:
根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;
将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;
判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除。
进一步的,根据数据集中样本分布进行样本划分包括:计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域。
优选的,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。
进一步的,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:
其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数。
进一步的,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。
进一步的,根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:
其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011319187.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页岩气开发用气井缓蚀剂及制备方法
- 下一篇:模具板材弯曲机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置