[发明专利]一种大数据在线噪声过滤系统与方法有效

专利信息
申请号: 202011319187.3 申请日: 2020-11-23
公开(公告)号: CN112418313B 公开(公告)日: 2022-09-27
发明(设计)人: 雷建军;刘志文 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/215 分类号: G06F16/215;G06K9/62
代理公司: 重庆辉腾律师事务所 50215 代理人: 王海军
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 在线 噪声 过滤 系统 方法
【说明书】:

发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法,所述方法包括根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除;本发明能够在线对传感器数据进行噪声过滤,提高数据质量。

技术领域

本发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法。

背景技术

近年来,人工智能技术发展迅速,机器学习技术也越趋成熟。机器学习的发展得益于大数据时代的海量训练样本。而样本集的质量是影响机器学习算法效率的一个重要因素。由于数据采集异常或者数据标注人员专业水平差异等原因,数据集中或多或少包含噪声样本。标签噪声是监督学习、半监督学习中不可忽略的问题。

目前处理标签噪声的方法主要有算法级的鲁棒性建模和数据级的噪声过滤。鲁棒性建模是指从算法层面构建不易受标签噪声影响的鲁棒性模型,但很多鲁棒性模型对标签噪声并不完全鲁棒。噪声过滤一般是通过模型预测的方法对噪声数据进行检测并移除,但建立噪声预测模型所使用到的数据本身含有标签噪声,使得模型预测可靠性不强。

发明内容

针对上述问题,本发明提出一种大数据在线噪声过滤系统与方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,对预处理后的数据集进行以下步骤:

根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;

将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;

判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除。

进一步的,根据数据集中样本分布进行样本划分包括:计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域。

优选的,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。

进一步的,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:

其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数。

进一步的,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。

进一步的,根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:

其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011319187.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top