[发明专利]一种众包场景中针对数值任务获取高质量数据的方法在审

专利信息
申请号: 202110727017.7 申请日: 2021-06-29
公开(公告)号: CN113379392A 公开(公告)日: 2021-09-10
发明(设计)人: 李向阳;史专;张兰 申请(专利权)人: 中国科学技术大学
主分类号: G06Q10/10 分类号: G06Q10/10;G06Q10/06
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明;付久春
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 场景 针对 数值 任务 获取 质量 数据 方法
【权利要求书】:

1.一种众包场景中针对数值任务获取高质量数据的方法,其特征在于,包括:

步骤1,建立用户的初始主题级可靠性:确定数值任务集中每个数值任务的潜在主题,其中,所述数值任务集中的数值任务包括已知答案的样本数值任务和待回答的目标数值任务;

根据用户对样本数值任务的回答集和真值,初始化所述用户对样本数值任务的潜在主题的主题级可靠性,得到所述用户的初始主题级可靠性;

步骤2,依据用户的初始主题级可靠性进行真值推断:根据所述用户的初始主题级可靠性和每个目标数值任务的回答集推断得出每个目标数值任务的真值和主题分布,根据推断得出的每个目标数值任务的真值、主题分布和每个目标数值任务的回答集,迭代更新得出用户的主题级可靠性;

步骤3,通过激励机制进行在线任务分配:

根据任务需求方提供的答案范围和精度要求,对所述任务需求方给出的目标数值任务的连续数值答案进行离散化得到离散化后的候选答案和离散化后的回答集,用离散化后的候选答案和离散化后的回答集建立目标数值任务的分布矩阵;

根据所建立的目标数值任务的分布矩阵和用户的主题级可靠性计算目标数值任务的真值分布;

当需要给到达的某一用户分配目标数值任务时,通过熵衡量目标数值任务真值分布的不确定性,并根据该用户对目标数值任务可能的回答,计算出当目标数值任务分配给该用户时的不确定性,选取单位报价内不确定性减少量最多的目标数值任务分配给该用户。

2.根据权利要求1所述的众包场景中针对数值任务获取高质量数据的方法,其特征在于,所述步骤1中,按以下方式建立用户的初始可靠性,包括:

步骤11,确定潜在主题:将存在多个主题的数值任务中,属于同一主题的一组数值任务设为数值任务集群,以数值任务对所述数值任务集群的隶属度作为一位用户在该数值任务集群的各数值任务上的可靠性;

步骤12,确定用户的主题级可靠性:通过高斯分布将所述用户对样本数值任务回答的误差和所述用户的初始化主题级可靠性建模为概率图模型;

步骤13,估计得出用户的初始主题级可靠性:依据所述概率图模型,通过Gibbs-EM算法计算样本数值任务对各潜在主题的隶属度并优化样本数值任务主题的先验参数,同时计算得到用户的初始主题级可靠性。

3.根据权利要求2所述的众包场景中针对数值任务获取高质量数据的方法,其特征在于,所述步骤11中,用Dirichlet分布和Multinomial分布描述数值任务集群以及数值任务对数值任务集群的隶属度。

4.根据权利要求1或2所述的众包场景中针对数值任务获取高质量数据的方法,其特征在于,所述步骤2中,按以下方式依据用户的主题级可靠性进行真值推断,包括:

步骤21,推断任务的真值和主题分布:

对于目标数值任务当前参数下的真值和主题分布的潜在变量分布,计算最大后验概率的对数似然函数的期望;对所述最大后验概率的对数似然函数的期望求导得出所述目标数值任务的真值和主题分布;

步骤22,更新用户的主题级可靠性:

根据估计出的目标数值任务的真值和主题分布,结合当前目标数值任务的回答集,采用Gibbs-EM算法迭代更新用户的主题级可靠性。

5.根据权利要求1或2所述的众包场景中针对数值任务获取高质量数据的方法,其特征在于,所述步骤3中,按以下方式通过激励机制进行在线任务分配,包括:

步骤31,预处理:

通过函数离散化目标数值任务t的答案,其中,ai表示任务需求方给出的目标数值任务t的回答集At中任意一个答案,当则ai是一个无效值;[et,min,et,max]表示任务需求方给出的目标数值任务t的答案范围;δt表示任务需求方给出的目标数值任务t的精度要求;

用表示对任务需求方给出的目标数值任务t离散化后的候选答案,Bt表示对任务需求方给出的目标数值任务t离散化后的回答集;

步骤32,建立分布矩阵:

建立分布矩阵Mt存储目标数值任务t的主题和真值分布,所述分布矩阵中的元素mt,k,l表示目标数值任务t属于主题k且真值是ct,l的概率;

用计算当前目标数值任务t的分布矩阵,之后用对分布矩阵进行正则化;

用表示目标数值任务t的分布矩阵,其中

步骤33,基于激励机制的在线任务分配:

用熵表示目标数值任务t真值分布的不确定性;

当用户w到达时,获取用户w此次能完成的最大任务数SW和对于所有目标数值任务的报价集合;当目标数值任务t分配给用户w时,遍历用户w可能的回答,用加权平均计算此时目标数值任务t真值分布不确定性根据真值分布不确定性计算对于目标数值任务t单位报价内真值分布不确定性的减少量

采用贪心算法从SW个单位报价内选取真值分布不确定性减少最多的任务分配给用户w,由所述用户w为所分配的目标数值任务t提供相应的回答并接收对应的报酬bt

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110727017.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top