[发明专利]一种基于射频识别技术的数据清洗方法在审
申请号: | 201910167056.9 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109656919A | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 权轶;付波;熊媛;兰琦;刘俊;张小锋;郭锦洋;毛嫚嫚;沈攀 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 程华 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据序列 读卡器 二维正态分布函数 正态分布函数 射频识别技术 数据清洗 置信区间 置信度 置信 信号强度确定 电子标签 实时获取 数据剔除 插值法 预设置 插补 信度 剔除 | ||
本发明公开了一种基于射频识别技术的数据清洗方法,所述方法包括:通过信号强度确定每个读卡器到电子标签的距离的数据序列;通过读卡器的数据序列确定每个读卡器的数据序列的一维正态分布函数和每组读卡器的二维正态分布函数;根据设定的第一置信度确定每个一维正态分布函数的置信区间;根据设定的第二置信度确定每个二维正态分布函数的置信区域;实时获取每个读卡器的数据序列,利用一维正态分布函数的置信区间和二维正态分布函数的置信区域,将数据序列中预设置信度之外的数据剔除,并根据要求采用插值法对剔除数据的所在位置进行数据插补。
技术领域
本发明涉及数据清洗技术领域,特别是涉及一种基于射频识别技术的数据清洗方法。
背景技术
近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大,区别于传统的数据结构化特点,具有包括海量性、分布性、和异构性三个特点,其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决数据带来的问题,针对这三个特性,面向数据的集成和清洗变得尤为重要。数据清洗在运用到具体问题中需要具体分析,难于归纳出通用方法,其数学建模困难。同时数据中还包含不确定性数据,现阶段不确定性数据产生的原因比较多样化,主要体现在实时数据不准确、使用粗粒度数据集合、数据字段缺失。
发明内容
本发明的目的是提供一种基于射频识别技术的数据清洗方法,利用置信度非方法剔除数据,运用插值法插入新数据,提高数据的精确度。
为实现上述目的,本发明提供了如下方案:
一种基于射频识别技术的数据清洗方法,所述方法包括:
在室内均匀设置三个读卡器;
通过每个所述读卡器采集室内电子标签的信号强度;
通过所述信号强度确定每个所述读卡器到电子标签的距离的数据序列;
将每个所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到每个所述读卡器的所述数据序列的一维正态分布函数;
将所述读卡器两个为一组分成三组,将每组所述读卡器的所述数据序列以正态分布为拟合对象进行反向拟合,得到三个二维正态分布函数;
根据设定的第一置信度确定每个所述一维正态分布函数的置信区间;
根据设定的第二置信度确定每个所述二维正态分布函数的置信区域;
实时获取每个所述读卡器的所述数据序列,如果所述数据序列中的数据不在与所述读卡器对应的置信区间内则剔除;
分别计算每组所述读卡器中两个所述数据序列的均值和方差,根据两个所述数据序列的均值和方差判断两个所述数据序列的数据是否在与两个所述数据序列对应的二维正态分布函数的置信区域内,如果两个所述数据序列的数据不在所述置信区域内则剔除;
计算剔除数据个数占实时采集总数据个数的概率,如果所述概率大于设定概率则采用插值法对剔除数据的所在位置进行数据插补。
可选的,所述第一置信度为95%,则所述第一置信度对应的所述置信区间为[-0.8289*σ+μ,0.8289*σ+μ],其中,σ表示所述数据序列的标准差,μ表示所述数据序列的均值。
可选的,所述第二置信度为80%,则所述置信区域O为:
其中,和分别表示每组中两个所述数据序列的方差,a和b分别表示每组中两个所述数据序列的均值。
可选的,采用matlab进行反向拟合。
可选的,所述电子标签的规格相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910167056.9/2.html,转载请声明来源钻瓜专利网。