[发明专利]一种对标注结果进行纠偏的方法和装置有效
申请号: | 201210074683.6 | 申请日: | 2012-03-20 |
公开(公告)号: | CN103324620A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 彭滔;金慈航;侴江彤;周敏;王晓君 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 结果 进行 纠偏 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种标注结果进行纠偏的方法和装置。
【背景技术】
在搜索引擎及相关信息系统的开发中,常常需要进行大规模的人工标注,包括:搜索相关性标注,即标注搜索结果和查询词的相关性;图片相关性标注,即标注图片和给定的标签(tag)的相关性;资源价值标注,即标注网络资源对用户的价值;广告结果标注,即标注广告结果和关键词的相关性;作弊结果标注,即标注是否是作弊网页,等等。
由于搜索引擎所需的标注数据通常很大,如果都由专业人员进行标注,则人力成本较高,且专业人员的数量有限,因此,现有标注多采用众包标注的形式,即引入非专业人员进行标注,安排不同标注者对同一标注项目进行重复标注,然后对不同标注者的标注结果进行整合得到最终的标注结果。然而,由于非专业人员的引入,鉴于其经验和技能的不足,会引起最终的标注结果可信度和准确度较低,这就急需在对不同标注者的标注结果进行整合的过程中引入纠偏机制。
【发明内容】
本发明提供了一种对标注结果进行纠偏的方法和装置,以便于提高众包标注的标注结果的可信度和准确度。
具体技术方案如下:
一种对标注结果进行纠偏的方法,用于包含多个标注项目的标注任务,该方法包括:
S1、初始化PX[x]、PXY[k][x][y]以及迭代步数t,所述PX[x]为标注结果x在所有标注项目的标注结果中占的比例,所述PXY[k][x][y]为正确标注结果是x时标注者k将标注项目标注为y的概率;
S2、获取各标注者对标注项目i的标注结果,根据当前的PX[x]和PXY[k][x][y],确定标注项目i的正确标注结果是x的概率PB[i][x];
S3、利用概率PB[i][x]的计算结果确定标注项目i的标注结果V[i];
S4、利用标注结果为x的标注项目的数目更新PX[x],利用标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,以及标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,更新PXY[k][x][y];
S5、将t值更新为加1后的值,判断更新后的t值是否达到预设的最大迭代步数,如果是,转至执行所述步骤S2;否则将当前V[i]值确定为标注项目i纠偏后的标注结果,并输出所述纠偏后的标注结果。
根据本发明一优选实施例,在所述步骤S1中,初始化PX[x]为初始化PXY[k][x][y]在x=y时为1-a×(S-1),初始化PXY[k][x][y]在x≠y时为a,a取小于0.1的值;所述S为标注结果的取值数目。
根据本发明一优选实施例,在所述步骤S2中,按照公式确定所述PB[i][x];
其中,Ui为对标注项目i进行了标注的标注者集合,为标注者k对标注项目i的标注结果。
根据本发明一优选实施例,在所述步骤S3中,按照公式确定所述V[i],所述round()为四舍五入的函数,所述S为标注结果的取值数目;或者,
确定所述V[i]为PB[i][x]中最大值对应的x。
根据本发明一优选实施例,在所述步骤S4中,按照更新PX[x],其中所述A为当前V[i]中标注结果为x的标注项目数目,所述M为所述标注任务的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,在所述步骤S4中,按照更新PXY[k][x][y],其中,所述B为标注者k标注为y而所述步骤S3确定的标注结果为x的标注项目数目,所述C为标注者k标注的所有标注项目中所述步骤S3确定的标注结果为x的标注项目数目,所述S为标注结果的取值数目。
根据本发明一优选实施例,该方法还包括:利用标注项目纠偏后的标注结果对标注者的标注质量进行衡量,其中,标注者k在所述标注任务中的标注质量Q(k)为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210074683.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:终端和账目数据的记录方法
- 下一篇:塑料切粒机构