[发明专利]一种大数据修复模型的构建方法和模型构建装置在审
申请号: | 202010500860.7 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111738442A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 王宏志;秦谦;姜涛 | 申请(专利权)人: | 江苏名通信息科技有限公司 |
主分类号: | G06N3/12 | 分类号: | G06N3/12;G06N20/00;G06K9/62;G06F16/215 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 212004 江苏省镇江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 修复 模型 构建 方法 装置 | ||
本发明公开了一种大数据修复模型的构建方法和模型构建装置,包括从备选修复方案中选择候选修复方案;利用预先构建多个机器学习模型根据候选修复方案针给出的修复值进行初步训练;利用初步训练完成的各机器学习模型给出预测修复值,并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分,对不确定得分进行排序;获取用户反馈参考值,并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求;训练完成获得最终的大数据修复模型。本发明减少了时间复杂度,保证了修复的正确性。
技术领域
本发明属于数据处理技术领域,具体涉及一种大数据修复模型的构建方法和模型构建装置。
背景技术
当今信息化时代,随着以微博、社交网络等为代表的新型信息发布方式的不断涌现,人类社会的数据种类和规模正以前所未有的速度在不断的增加和累积,同步数据的爆发式增长与社会化趋势,将视角瞄准大量的碎片化信息、用户行为、用户关系,并将焦点汇聚在由此产生的实时数据、非结构化数据及机器数据。由于数据存在规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值稀疏性(Value)的特征,不可避免的会产生粗糙的、错误的数据。由于大数据存在错误,并且这些错误会带来严重的后果,需要对大数据中的错误进行检测与修复,从而确保基于大数据各种应用的有效实施。
目前大部分存在的基于依赖的数据修复方法主要集中在使用不同启发式方法选择对数据产生最小改变的修复来自动产生答案。但是这些启发式算法不能保证修复的正确性,并且算法的时间复杂度太高,若果将其应用到重要数据会产生相当大的风险。
发明内容
本发明旨在解决目前数据修复方法正确性不能保证且算法的时间复杂度太高的技术问题,提出一种大数据修复模型的构建方法和模型构建装置。
为实现上述技术目的,本发明采用了以下技术方案。
一方面,本发明提供了一种大数据修复模型的构建方法,所述大数据修复模型用于给出待修复数据的修复值,所述大数据修复模型的构建方法包括以下步骤:
从备选修复方案中选择候选修复方案;利用预先构建多个机器学习模型根据候选修复方案针给出的修复值进行初步训练;
利用初步训练完成的各机器学习模型给出预测修复值,并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分,对不确定得分进行排序;获取用户反馈参考值,并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求;训练完成的机器学习模型就为最终的大数据修复模型。
进一步地,从备选修复方案中选择候选修复方案的方法为采用遗传模型,所述遗传模型的代价函数如下:
Cost(C)=∑t∈Cu(t)
其中u(t,A)表示给定一个修复u,它用来将元组t的A属性值从v修复到v′的评估,Ri表示第i个属性集,C表示元组集合,u(t,A)的表达式如下:
(v,v′)表示v和v′的距离。
进一步地,所述机器学习模型采用贝叶斯分类器。
进一步地,用户反馈参考值采用众包方式获得。
进一步地,所述候选修复方案给出修复值要满足三个约束条件,第一个约束条件为:两个元组满足若干特定属性的值相同,由该若干特定属性决定的其它特定属性的值需要相同的,则其它特定属性的修复值必须要跟另一元组该属性的值相同;
对两个表中的元组必须有特定属性值相同,则修复值必须要满足该约束;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司,未经江苏名通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010500860.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置