[发明专利]基于数据源多维特性的真值发现方法有效
申请号: | 201811053612.1 | 申请日: | 2018-09-11 |
公开(公告)号: | CN109284316B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 尹美娟;郑燕;刘晓楠;罗向阳;罗军勇;杨文 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据源 多维 特性 真值 发现 方法 | ||
1.一种基于数据源多维特性的真值发现方法,其特征在于,包含如下内容:
量化对象实体中数据源之间的相关性;
迭代:依据数据源之间的相关性及数据源准确率,获取每个对象实体中的副本数据并进行舍弃;通过数据源准确率和召回率,推导数据源质量及对象真值;将满足迭代收敛条件推导出的对象真值输出;
将对象实体中数据源观察值的中值作为迭代初始对象真值;依据数据源观察值、对象实体个数及依据上一轮迭代获取的对象真值,计算数据源准确率和召回率;依据数据源准确率,获取同一对象实体上的副本数据并进行舍弃;基于数据源准确率和召回率,迭代推导数据源质量及对象真值,直至满足预设收敛条件,停止迭代,输出最后一轮迭代中获取到的对象真值;
迭代推导数据源质量及对象真值过程中,基于高斯分布对数据源的准确率与召回率进行建模,利用最大似然估计推导出对象真值;
迭代推导数据源质量及对象真值过程中,利用最大似然估计推导出对象真值包含如下内容:
数据源观察值为真的观察值率服从高斯分布,获取高斯分布均值及方差,并计算观察值为真的概率,其中,高斯分布均值为对象真值,方差为不提供观察值的数据源的召回率与提供观察值的数据源的准确率的比值;
采用最大似然估计方法获取所有对象真值,使得所有观察值为真的观察值联合概率达到最大;
对每一个对象真值进行求偏导,获取最优解,得到当前迭代的输出对象真值,并判断当前迭代是否满足预设收敛条件,若满足,则停止迭代,输出当前轮迭代中获取到的对象真值,否则,返回,重新计算数据源准确率和召回率,开始新一轮的迭代循环。
2.根据权利要求1所述的基于数据源多维特性的真值发现方法,其特征在于,基于网络分析模型量化对象实体中数据源之间的相关性,网络分析模型中通过超边表示数据源三元组对象,观察值,数据源;将数据源三元组作为网络分析模型的输入,输出即为数据源的表示向量。
3.根据权利要求1所述的基于数据源多维特性的真值发现方法,其特征在于,每个对象实体中的副本数据的获取过程中,首先获取对象实体提供观察值的数据源集合中准确率最高的数据源,并依据相关性将其与其他数据源逐一计算相似度;对每个对象实体对应的数据源集合,将与准确率最高的数据源的相似度大于设定阈值的数据源作为该对象实体的副本数据。
4.根据权利要求1~3任一项所述的基于数据源多维特性的真值发现方法,其特征在于,迭代收敛条件为迭代次数达到预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811053612.1/1.html,转载请声明来源钻瓜专利网。