[发明专利]一种用于知识验证的真值发现方法及系统有效
申请号: | 202011511355.9 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112651505B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 韩跃;韩伟红;李默涵;李树栋;顾钊铨 | 申请(专利权)人: | 广州大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈旭红;吴落 |
地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 知识 验证 真值 发现 方法 系统 | ||
本发明公开了一种用于知识验证的真值发现方法及系统,涉及数据检测技术领域。方法包括:对待测数据进行预处理,并利用期望最大化(EM)算法对数据进行筛选,并通过准确验证的高质量数据替换训练集中挑选数据真值作整体数据集;通过原始训练集训练真值评估器,整体数据集训练已有初步参数的评估器模型,获得高质量评估器模型;通过高质量评估器模型对获取的数据进行计算根据数据置信度迭代更新信源的可信度,输出数据最终的置信度及其真值标签和信源的可信度。本发明采取半监督的真值发现方法,在现有技术的基础上,结合小部分特征丰富的人工验证数据,提升真值发现方法在知识验证融合领域的实验结果的准确性。
技术领域
本发明涉及数据检测技术领域,尤其涉及一种用于知识验证的真值发现方法及系统。
背景技术
由于社交媒体大量报道的信息缺乏权威机关的佐证,数据中存在局部性,误导性,甚至错误的信息。评估数据的真实性成为极具挑战的任务。对于所有真值发现问题,其基本原则是:迭代推断各信源的可靠度和信源声明的信息的真实度。但由于现有的信源多不可靠,易出现声明特定地错误信息的情况。真值发现是基于数据进行后续的处理应用,现有的真值发现方法大多数使用无监督的方法,然而机器对真假值的分辨能力始终不如人工分辨验证得准确,导致无监督的真值发现技术的准确性提升过程遭遇了难以突破瓶颈,无法达到令人满意的情况。此外,现有方法的实用性不高,方法的假设和参数设置的复杂,使得技术难以应用到多种信息和网络场景之中。
发明内容
本发明目的在于,提供一种用于知识验证的真值发现方法及系统,采取半监督的真值发现方法,在现有技术的基础上,结合小部分特征丰富的人工验证数据,提升真值发现方法在知识验证融合领域的实验结果的准确性。
为实现上述目的,本发明实施例提供一种用于知识验证的真值发现方法,包括:对待测数据进行预处理,并利用EM算法对所述数据进行筛选,得到特征丰富的高质量数据;挑选若干所述高质量数据用于外部准确验证,将通过准确验证的高质量数据替换训练集中挑选数据真值作整体数据集;通过原始训练集训练真值评估器,获得初步参数的评估器模型;通过整体数据集训练已有初步参数的评估器模型,获得高质量评估器模型;通过高质量评估器模型对获取的数据进行计算,得到数据的置信度;根据数据置信度迭代更新信源的可信度;计算数据的真值标签,输出数据最终的置信度及其真值标签和信源的可信度。
优选地,所述对获取的数据进行预处理,并利用EM算法对所述数据进行筛选,得到特征丰富的高质量数据,包括:对获取的数据进行预处理,获取所有数据声明的置信度,声明的真值标签与信源的置信度;利用EM算法对所述数据进行筛选,迭代优化,循环直到代价函数收敛时,得到特征丰富的高质量数据。
优选地,在所述计算数据的真值标签,输出数据最终的置信度及其真值标签和信源的可信度前,还包括:判断终止条件是否满足,当终止条件不满足时,循环用高质量评估器模型对获取的数据进行计算,得到数据的置信度,并根据数据置信度迭代更新信源的可信度。
优选地,所述计算数据的真值标签,输出数据最终的置信度及其真值标签和信源的可信度,包括:利用整体数据的对数似然公式,重新计算真值评估,使用EM算法的E步骤和M步骤迭代更新模型的参数变量;将待测数据放入迭代更新后的评估器模型,得到数据的真值标签。
本发明实施例还提供一种用于知识验证的真值发现系统,其特征在于,包括:高质量数据获取模块,用于对待测数据进行预处理,并利用EM算法对所述数据进行筛选,得到特征丰富的高质量数据;外部准确验证模块,用于挑选若干所述高质量数据用于外部准确验证,将通过准确验证的高质量数据替换训练集中挑选数据真值作整体数据集;初步模型获取模块,用于通过原始训练集训练真值评估器,获得初步参数的评估器模型;高质量模型获取模块,用于通过整体数据集训练已有初步参数的评估器模型,获得高质量评估器模型;数据置信度获取模块,用于通过高质量评估器模型对获取的数据进行计算,得到数据的置信度;信源可信度获取模块,用于根据数据置信度迭代更新信源的可信度;输出模块,用于计算数据的真值标签,输出数据最终的置信度及其真值标签和信源的可信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011511355.9/2.html,转载请声明来源钻瓜专利网。