[发明专利]一种大数据在线噪声过滤系统与方法有效
申请号: | 202011319187.3 | 申请日: | 2020-11-23 |
公开(公告)号: | CN112418313B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 雷建军;刘志文 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 在线 噪声 过滤 系统 方法 | ||
1.一种大数据在线噪声过滤方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,其特征在于,对预处理后的数据集进行以下步骤:
根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域,具体包括:计算样本与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域;
将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;
判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除;
判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:
其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数;
根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:
其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签;
对获得的噪声集合进行进一步过滤,具体包括:
分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数,表示为:
NS(xi)=confidence(xi).neighbor(xi);
其中,NS(xi)为样本xi的噪声分数;confidence(xi)为样本的xi的置信度;neighbor(xi)为样本的xi的邻域信息,表示为:
其中,clean(xj)为样本的清洁程度;differentClasses(xi,xj)为样本xi与其邻域样本xj的相似程度;
当噪声分数大于零,将该样本纳入噪声集合,否则该样本为干净样本,从噪声集合中移除。
2.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。
3.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。
4.一种大数据在线噪声过滤系统,包括数据采集端、客服端以及Spark大数据平台,数据采集端利用传感器采集数据,并通过客服端将该数据传送到Spark大数据平台,其特征在于,Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块,所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元;第二噪声过滤模块包括样本噪声分数计算模块以及分类模块,其中:
数据分类单元,用于将输入的数据划分为高密度区域和低密度区域,以及将低密度区域包括单一标签区域和混合标签区域,即计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域;
第一数据处理单元,用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声;
第二数据处理单元,判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:
其中,为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数;
根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:
其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签;
噪声分数计算模块,用于根据样本的置信度和邻域信息计算其样本分数,包括:
分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数,表示为:
NS(xi)=confidence(xi).neighbor(xi);
其中,NS(xi)为样本xi的噪声分数;confidence(xi)为样本的xi的置信度;neighbor(xi)为样本的xi的邻域信息,表示为:
其中,clean(xj)为样本的清洁程度;differentClasses(xi,xj)为样本xi与其邻域样本xj的相似程度;
分类模块,用于将样本分数小于等于0的样本移出噪声集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011319187.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页岩气开发用气井缓蚀剂及制备方法
- 下一篇:模具板材弯曲机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置