[发明专利]一种大数据修复模型的构建方法和模型构建装置在审
申请号: | 202010500860.7 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111738442A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 王宏志;秦谦;姜涛 | 申请(专利权)人: | 江苏名通信息科技有限公司 |
主分类号: | G06N3/12 | 分类号: | G06N3/12;G06N20/00;G06K9/62;G06F16/215 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 朱远枫 |
地址: | 212004 江苏省镇江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 修复 模型 构建 方法 装置 | ||
1.一种大数据修复模型的构建方法,其特征在于,所述大数据修复模型用于对给出待修复数据的修复值,所述大数据修复模型的构建方法包括以下步骤:
从备选修复方案中选择候选修复方案;利用预先构建多个机器学习模型根据候选修复方案给出的修复值进行初步训练;
利用初步训练完成的各机器学习模型给出预测修复值,并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分,对不确定得分进行排序;获取用户反馈参考值,并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求;训练完成的机器学习模型就为最终的大数据修复模型。
2.根据权利要求1所述的一种大数据修复模型的构建方法,其特征在于,从备选修复方案中选择候选修复方案的方法为采用遗传模型,所述遗传模型的代价函数如下:
Cost(C)=∑t∈Cu(t)
其中u(t,A)表示给定一个修复u,它用来将元组t的A属性值从v修复到v′的评估,Ri表示第i个属性集,C表示元组集合,u(t,A)的表达式如下:
(v,v′)表示v和v′的距离。
3.根据权利要求1所述的一种大数据修复模型的构建方法,其特征在于,所述机器学习模型采用贝叶斯分类器。
4.根据权利要求1所述的一种大数据修复模型的构建方法,其特征在于,用户反馈参考值采用众包方式获得。
5.根据权利要求1所述的一种大数据修复模型的构建方法,其特征在于,所述候选修复方案给出修复值要满足三个约束条件,第一个约束条件为:两个元组满足若干特定属性的值相同,由该若干特定属性决定的其它特定属性的值需要相同的,则其它特定属性的修复值必须要跟另一元组该属性的值相同;
第二个约束条件为:对两个表中的元组必须有特定属性值相同,则修复值必须要满足该约束;
第三个约束条件为:若两个元组在特定属性上的相似度大于该属性阈值,则与该属性关联的其它特定属性的相似度大于该属性阈值或者特定属性值相等。
6.根据权利要求1所述的一种大数据修复模型的构建方法,其特征在于,机器学习模型的不确定得分的计算方法如下:
Uscore(I)=∑prlog(pr),
其中pr为机器学习模型给出预测修复值r的频率,
7.一种大数据修复模型的构建装置,其特征在于,包括:所述大数据修复模型用于给出待修复数据的修复值,所述大数据修复模型的构建装置包括候选修复方案选择模块和机器学习训练模块:
所述候选修复方案选择模块,用于从备选修复方案中选择候选修复方案;
所述机器学习训练模块,用于利用预先构建多个机器学习模型根据候选修复方案选择模块确定的候选修复方案给出的修复值进行初步训练;利用初步训练完成的各机器学习模型给出预测修复值,并根据各机器学习模型的预测修复值确定各机器学习模型的不确定得分,对不确定得分进行排序;获取用户反馈参考值,并将用户反馈参考值构成新的训练集对不确定得分最高的设定个数的机器学习模型进行再训练直至满足精度要求;训练完成的机器学习模型就为最终的大数据修复模型。
8.根据权利要求7所述的一种大数据修复模型的构建装置,其特征在于,所述装置还包括与众包平台对接的接口,用于所述机器学习训练模块从平台通过众包方式获取用户反馈参考值。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~6任意一项权利要求所述方法的步骤。
10.一种计算机程序,其特征在于,包括用于执行权利要求1~6中任何一个权利要求所述的方法的计算机程序代码,所述计算机程序基于Map-Reduce程序设计模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司,未经江苏名通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010500860.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置