[发明专利]一种大数据在线噪声过滤系统与方法有效

申请号：	202011319187.3	申请日：	2020-11-23
公开（公告）号：	CN112418313B	公开（公告）日：	2022-09-27
发明（设计）人：	雷建军;刘志文	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/215	分类号：	G06F16/215;G06K9/62
代理公司：	重庆辉腾律师事务所 50215	代理人：	王海军
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据在线噪声过滤系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大数据在线噪声过滤方法，由多个传感器构成的数据采集端将数据实时发送到客户端，客户端将数据提交到Spark平台，Spark平台对接收的数据集进行预处理，其特征在于，对预处理后的数据集进行以下步骤：

根据数据集中样本分布将数据划分为高密度区域和低密度区域，将低密度区域包括单一标签区域和混合标签区域，具体包括：计算样本与其近邻样本之间的距离，当该距离大于设置的阈值，则该数据为低密度区域，否则为高密度区域；计算低密度区域内数据的局部标签熵，当该熵小于设置的阈值，则属于低密度单一标签区域，否则属于低密度混合标签区域；

将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集；

判断低密度混合标签区域数据的相异性差值是否超过设置的阈值，若超过则根据相对密度判断数据的噪声；否则将该数据划分为干净样本，从噪声集合中移除；

判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离，其中数据的局部标签熵表示为：

其中，为标签信息熵；P_s为待判定样本的k近邻区域内，与待判定样本标签相同的概率；P_d为待判定样本的k近邻区域内，与待判定样本标签不同的概率，k为近邻样本数；

根据相对密度判断数据的噪声时，若数的相对密度大于1时，将其视为噪声样本，相对密度表示为：

其中，Relative_density(D(x_i))为数据x_i的相对密度；dis(x_i，x_j)为样本x_i与样本x_j的距离；k为近邻样本数；y_i为样本xi的标签；

对获得的噪声集合进行进一步过滤，具体包括：

分别计算噪声集合中每个样本置信度和邻域信息，并构建样本噪声分数，计算每个样本的噪声分数，表示为：

NS(x_i)＝confidence(x_i).neighbor(x_i)；

其中，NS(x_i)为样本x_i的噪声分数；confidence(x_i)为样本的x_i的置信度；neighbor(x_i)为样本的x_i的邻域信息，表示为：

其中，clean(x_j)为样本的清洁程度；differentClasses(x_i，x_j)为样本x_i与其邻域样本x_j的相似程度；

当噪声分数大于零，将该样本纳入噪声集合，否则该样本为干净样本，从噪声集合中移除。

2.根据权利要求1所述的一种大数据在线噪声过滤方法，其特征在于，判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10％分位数。

3.根据权利要求1所述的一种大数据在线噪声过滤方法，其特征在于，通过多数投票准则判断得到噪声集包括：如果待测样本的k近邻区域中同类样本的数量大于一半，则认为该样本为干净样本；否则认为该样本为噪声样本。

4.一种大数据在线噪声过滤系统，包括数据采集端、客服端以及Spark大数据平台，数据采集端利用传感器采集数据，并通过客服端将该数据传送到Spark大数据平台，其特征在于，Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块，所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元；第二噪声过滤模块包括样本噪声分数计算模块以及分类模块，其中：

数据分类单元，用于将输入的数据划分为高密度区域和低密度区域，以及将低密度区域包括单一标签区域和混合标签区域，即计算样与其近邻样本之间的距离，当该距离大于设置的阈值，则该数据为低密度区域，否则为高密度区域；计算低密度区域内数据的局部标签熵，当该熵小于设置的阈值，则属于低密度单一标签区域，否则属于低密度混合标签区域；

第一数据处理单元，用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声；

第二数据处理单元，判断低密度混合标签区域数据的相异性差值是否超过设置的阈值，若超过则根据相对密度判断数据的噪声；否则将该数据划分为干净样本，从噪声集合中移除，判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离，其中数据的局部标签熵表示为：

根据相对密度判断数据的噪声时，若数的相对密度大于1时，将其视为噪声样本，相对密度表示为：

其中，Relative_density(D(x_i))为数据x_i的相对密度；dis(x_i，x_j)为样本x_i与样本x_j的距离；k为近邻样本数；y_i为样本xi的标签；

噪声分数计算模块，用于根据样本的置信度和邻域信息计算其样本分数，包括：

分别计算噪声集合中每个样本置信度和邻域信息，并构建样本噪声分数，计算每个样本的噪声分数，表示为：

NS(x_i)＝confidence(x_i).neighbor(x_i)；

其中，NS(x_i)为样本x_i的噪声分数；confidence(x_i)为样本的x_i的置信度；neighbor(x_i)为样本的x_i的邻域信息，表示为：

其中，clean(x_j)为样本的清洁程度；differentClasses(x_i，x_j)为样本x_i与其邻域样本x_j的相似程度；

分类模块，用于将样本分数小于等于0的样本移出噪声集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载