[发明专利]一种用于大数据清洗的异常检测和消除的方法有效
申请号: | 201711138353.8 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107908744B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 王晓鹏 | 申请(专利权)人: | 河南中医药大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;陈国军 |
地址: | 450000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数据 清洗 异常 检测 消除 方法 | ||
本发明公开了一种用于大数据清洗的异常检测和消除的方法,包括:数据输入模块接收用户输入的企业经营数据报告,从中提取企业经营数据后,发送企业经营数据给指标构建模块和数据处理模块;指标构建模块根据企业经营数据构建出数据分析指标,并将构建出的数据分析指标发送至数据处理模块;数据处理模块接收到数据分析指标和企业经营数据后,根据数据分析指标选取企业经营数据,并对选取的企业经营数据进行分析,得到企业经营指标波动的原因,并将企业经营指标波动的原因和对应的数据发送至数据输出模块;数据输出模块在接收到指标波动原因和对应的数据后,将其按预设的输出模式生成并输出指标波动原因分析报告。
技术领域
本发明涉及数据处理领域,特别涉及一种用于大数据清洗的异常检测和消除的方法。
背景技术
目前,在数据分析的各个领域,无论是企业经营数据,还是社会学科数据分析,甚至是医药数据用量的效果统计,都会涉及到大数据的分析处理,为了得到准确的结果,防止异常数据的干扰,在进行分析之前,还会对大数据进行清洗,而这就需要对混入正常数据中的异常数据进行检测和消除,虽然这种方法可以检测出记录错误、软硬件故障等真实的异常数据,但也会清理掉由于数据单位不统一而造成“异常”的正常数据,造成有效数据的浪费。而这种情况在数据源多样,尤其是数据源在多个国家时尤为明显。
发明内容
为解决以上问题,本发明提供一种用于大数据清洗的异常检测和消除的方法。
本发明提供的一种用于大数据清洗的异常检测和消除的方法,通过异常检测单元和异常消除单元实现,包括步骤:
异常检测单元读取所需清洗的大数据,并从中检测出所有的正常值和所有的异常值;
异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果;
异常消除单元对聚类结果中的每一类别,进行预设的数值变换,得到每一类别的修正结果;
异常检测单元将修正结果和正常值放在一起进行检测,检测出新的正常值和新的异常值;
异常消除单元或异常检测单元保留所述新的正常值并删除其他值,完成大数据的异常检测和消除。
优选的,
所述检测出所有的正常值和异常值,可实施为:
异常检测单元通过基于统计与数据分布的检测方法检测出第一正常值和第一异常值;
异常检测单元通过基于距离/密度的检测方法检测出第二正常值和第二异常值;
异常检测单元将所述第一正常值和所述第二正常值的交集设为正常值;
异常检测单元将所述第一异常值和所述第二正常值的交集设为待修正异常值;
所述异常消除单元读取所述异常值,并对异常值进行聚类分析,得到聚类结果,可实施为:
异常消除单元读取所述待修正异常值,并对待修正异常值进行聚类分析,得到聚类结果。
优选的,
异常检测单元检测所述正常值的数量与所述大数据的数值的数量之比,当所述比值低于预设的阈值时,异常检测单元发出警告提醒,提醒用户重新设置异常检测单元的检测参数。
优选的,所述预设的数值变换,包括:
单位变换。
优选的,所述预设的数值变换,通过以下方法实施:
异常消除单元检测大数据中数据的量纲;
异常消除单元根据所述量纲进行数值变换,所述变换的方法为:
异常消除单元对聚类结果中的每一类别,假定其单位为与正常值所使用的单位不同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南中医药大学,未经河南中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711138353.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:心脏损伤装置
- 下一篇:批量文档扫描整理装置、方法、介质及设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置