[发明专利]一种确定图片文本标注的方法和系统有效
申请号: | 201210167803.7 | 申请日: | 2012-05-25 |
公开(公告)号: | CN103425715A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 阮星华;欧鑫凤;张敏;高亮 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 图片 文本 标注 方法 系统 | ||
1.一种确定图片文本标注的方法,其特征在于,该方法包括:
S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
S2、向所述标注组提供待标注图片;
S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
S4、利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S3中从所述待标注图片在源文件上的周边文本中提取关键词具体包括:
A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;
A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;
A3、提取权值满足预设权值要求的词语作为关键词。
3.根据权利要求2所述的方法,其特征在于,所述步骤A2包括:
依据公式wij=[(αi1+αi2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中还包括:
将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:
将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S4之后还包括:
S5、如果标注系统中存在可参与标注的用户,则选择可参与标注的用户替换所述标注组中的虚拟用户。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
当确定所述标注组中除虚拟用户之外的其他用户行为异常时,判断其他用户与虚拟用户的标注关键词一致率低于预设阈值的次数是否超过预设次数阈值,如果是,则确定其他用户存在作弊;
其中如果某用户的标注时间间隔小于Tavr的程度超过预设偏离阈值,或者,某用户的积分增长速度超过预设增长阈值,则确定所述某用户行为异常。
8.一种确定图片文本标注的系统,其特征在于,该系统包括:
虚拟用户分配单元,用于如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;
图片提供单元,用于向所述标注组提供待标注图片;
虚拟用户模拟单元,用于从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;
标注结果确定单元,用于利用标注组中各用户的标注关键词,确定所述待标注图片的标注结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210167803.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食品混合装置
- 下一篇:一种尿素热解SCR烟气脱硝装置