[发明专利]一种大数据在线噪声过滤系统与方法有效

专利信息
申请号: 202011319187.3 申请日: 2020-11-23
公开(公告)号: CN112418313B 公开(公告)日: 2022-09-27
发明(设计)人: 雷建军;刘志文 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/215 分类号: G06F16/215;G06K9/62
代理公司: 重庆辉腾律师事务所 50215 代理人: 王海军
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 在线 噪声 过滤 系统 方法
【权利要求书】:

1.一种大数据在线噪声过滤方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,其特征在于,对预处理后的数据集进行以下步骤:

根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域,具体包括:计算样本与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域;

将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;

判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除;

判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:

其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数;

根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:

其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签;

对获得的噪声集合进行进一步过滤,具体包括:

分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数,表示为:

NS(xi)=confidence(xi).neighbor(xi);

其中,NS(xi)为样本xi的噪声分数;confidence(xi)为样本的xi的置信度;neighbor(xi)为样本的xi的邻域信息,表示为:

其中,clean(xj)为样本的清洁程度;differentClasses(xi,xj)为样本xi与其邻域样本xj的相似程度;

当噪声分数大于零,将该样本纳入噪声集合,否则该样本为干净样本,从噪声集合中移除。

2.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。

3.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。

4.一种大数据在线噪声过滤系统,包括数据采集端、客服端以及Spark大数据平台,数据采集端利用传感器采集数据,并通过客服端将该数据传送到Spark大数据平台,其特征在于,Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块,所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元;第二噪声过滤模块包括样本噪声分数计算模块以及分类模块,其中:

数据分类单元,用于将输入的数据划分为高密度区域和低密度区域,以及将低密度区域包括单一标签区域和混合标签区域,即计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域;

第一数据处理单元,用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声;

第二数据处理单元,判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:

其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数;

根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:

其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签;

噪声分数计算模块,用于根据样本的置信度和邻域信息计算其样本分数,包括:

分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数,表示为:

NS(xi)=confidence(xi).neighbor(xi);

其中,NS(xi)为样本xi的噪声分数;confidence(xi)为样本的xi的置信度;neighbor(xi)为样本的xi的邻域信息,表示为:

其中,clean(xj)为样本的清洁程度;differentClasses(xi,xj)为样本xi与其邻域样本xj的相似程度;

分类模块,用于将样本分数小于等于0的样本移出噪声集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011319187.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top