[发明专利]一种基于特征的众包标注结果汇聚方法及装置在审
申请号: | 202111570890.6 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114358534A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 方毅立;裴召奇;韩焘;丁鑫怡 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06N5/02;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 标注 结果 汇聚 方法 装置 | ||
本发明公开了一种基于特征的众包标注结果汇聚方法及装置,该方法首先从外部知识库中得到任务类别和特征之间存在的某种映射关系,然后本发明设计了一种结合工人能力和该映射关系的模型,最后将从众包平台收集到的带有特征和类别标注的观测数据输入到模型当中,极大化观测数据关于模型参数的对数似然函数,应用迭代算法求出模型参数工人能力和隐变量任务的真实类别与真实特征,完成众包标注结果汇聚。本发明为众包领域中通过众包结果汇聚推断任务的真实类别提供了一种新颖的方法,提高了分类任务的准确率。
技术领域
本发明属于众包系统及任务推理技术领域,具体涉及一种基于特征的众包标注结果汇聚方法及装置。
背景技术
众包是当前互联网蓬勃发展的大环境下一种新兴的利用分布式计算的商业模式。一般由三部分构成,众包平台的供应商,众包任务的发布者,参与众包任务的工人。众包流程包括任务处理和结果汇聚两个阶段。在任务处理阶段,请求者将数据冗余地发放给众包平台上的工人,然后将工人标注好的数据收集回来。在结果汇聚阶段,请求者利用一定的汇聚算法对冗余数据进行结果汇聚,并且得到一个精准的结果。然而目前的众包工人在对任务进行处理时,都是直接提供对一个任务的回答,而完全忽视了工人对任务认识上的直觉性,比如可能对任务类别推断有潜在价值的任务的特征信息,从而导致了众包任务处理的准确率不高。比如,在犬种识别的多分类中,当工人在众包平台看到一张狗的图片时,该工人可能无法分辨出该图片是属于哪一类狗种,但是一定能够分辨狗的毛发(长发或者短发)和体型(大或者小),而且在现实生活中类别和特征之间往往存在一定的关联关系,例如小泰迪往往都是比较小的体型,与之相反的是,藏獒的体型往往都是比较大的,因此本发明利用这种关系来提高分类任务的准确率。
发明内容
针对目前众包领域汇聚多个工人的回答来推断任务的真实类别准确率不高的问题,本发明提供了一种基于特征的众包标注结果汇聚方法及装置。
本发明解决其技术问题采用的技术方案如下:本发明将未标注的数据集中包含的类别和特征之间建立起映射关系,然后将未标注的数据集发布到众包平台让工人同时对任务的类别和特征进行标注,最后将收集到的数据放入到模型当中,应用模型中使用的EM算法求出工人能力和每个任务的真实类别与真实特征,完成众包标注结果汇聚,具体包括以下步骤:
(1)从外部知识库中获得物体类别与特征之间的映射关系;
(2)将待推断的对象基于提问的问题生成一众包任务,将众包任务在众包平台上分发给众包工人,从众包平台收集带有类别标注和特征标注的众包数据集;
(3)根据工人能力和类别与特征之间的映射关系以及众包数据集,设计任务分类模型;
所述任务分类模型包括工人模块、任务模块和映射关系模块三部分;
工人模块用于刻画工人标注任务类别的能力和标注任务特征的能力,用aj表示工人j答对类别的概率,ajg表示工人j答对特征g的概率;
任务模块用于记录任务类别的真值和任务特征的真值,用zi表示任务i的类别真值,用表示类别ck对应的特征g的真值;
在工人模块和任务模块的交叉部分,用表示工人j对任务i的类别的回答,用表示工人j对任务i的特征g的回答;
映射关系模块用于提供物体类别与特征之间的映射关系;
将所述任务分类模型由概率表示为以下形式:
工人回答任务类别的概率分布:
工人回答任务特征的概率分布:
其中I为指示函数,K为类别个数,Kg为特征g可能取值的个数,参数θ表示工人能力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111570890.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理