[发明专利]一种确定图片文本标注的方法和系统有效

专利信息
申请号: 201210167803.7 申请日: 2012-05-25
公开(公告)号: CN103425715A 公开(公告)日: 2013-12-04
发明(设计)人: 阮星华;欧鑫凤;张敏;高亮 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 图片 文本 标注 方法 系统
【说明书】:

【技术领域】

发明涉及计算机应用技术领域,特别涉及一种确定图片文本标注的方法和系统。

【背景技术】

随着多媒体相关技术的发展,数字图片的规模迅速扩大,其应用也越来越广泛,因此,如何有效、快速地从大规模图片数据中搜索出所需的图片已成为一个研究热点。常用的方式为基于文本的图片搜索方式,即通过表征图片信息的关键词建立索引来实现图片搜索。其中通过“众包”的方式对图片进行信息标注,来提高搜索引擎的准确性和召回率是一个比较有效的方法,并且标注数据可以作为图片机器学习的样本数据,对于提高图片机器学习的准确率也有很大的效果。

现有对图片进行标注的方式要求标注用户具有一定程度的同步,即当可参与图片标注的在线用户数量达到预设的人数要求时,向可参与图片标注的在线用户展示待标注图片,获取在线用户对待标注图片标注的关键词,并利用各关键词的一致性程度来确定图片的标注结果。但这种标注方式会存在以下问题:

1)在标注系统运行的过程中有在线用户数量少的时候,可能长时间无法达到启动标注需要的人数要求,在此过程中,在线用户可能不愿意等待而下线,这就更造成长时间无法达到启动标注的人数要求。这就会造成标注系统在运行过程中可能长时间无法实现图片标注的情况,显然,浪费了系统资源。

2)在标注系统中是存在激励机制的,部分用户是为了奖励而参与标注,这就可能引起部分用户的协同作弊行为,即部分用户串通为图片标注相同关键词从而获得奖励,而该关键词可能并不准确,从而影响图片标注的准确性。

【发明内容】

有鉴于此,本发明提供了一种确定图片文本标注的方法和系统,以便于避免标注系统在运行过程中长时间无法实现图片标注的情况,从而提高系统资源的利用率,同时降低协同作弊的可能性。

具体技术方案如下:

一种确定图片文本标注的方法,该方法包括:

S1、在标注系统中,如果超过预设时长可参与图片标注的用户数量没有达到预设的人数要求,则分配虚拟用户与可参与图片标注的用户构成满足预设人数要求的标注组;

S2、向所述标注组提供待标注图片;

S3、从所述待标注图片的已有标注结果中选择关键词,或者,从所述待标注图片在源文件上的周边文本中提取关键词,作为所述虚拟用户对所述待标注图片的标注关键词;

S4、利用所述标注组中各用户的标注关键词,确定所述待标注图片的标注结果。

根据本发明一优选实施例,所述步骤S3中从所述待标注图片在源文件上的周边文本中提取关键词具体包括:

A1、对所述待标注图片在源文件上的周边文本进行分词和过滤处理;

A2、依据词语在所述周边文本中的位置以及词语的倒文档率,确定步骤A1得到的各词语的权值;

A3、提取权值满足预设权值要求的词语作为关键词。

根据本发明一优选实施例,所述步骤A2包括:

依据公式wij=[(αi1i2+…+αik)/Li]×idfj确定词语tj的权值wij,αi1、αi2......αik为词语tj出现在图片di的源文件上周边文本不同位置时的权重,与图片di距离越近权重越大,越靠近预设词语权重越大,k为词语tj在所述周边文本的出现次数,Li为图片di的源文件上周边文本的长度,idfj为tj的倒文档率。

根据本发明一优选实施例,在所述步骤S3中还包括:

将所述虚拟用户对所述待标注图片的标注关键词按照标注时间间隔ΔT逐一进行标注,所述ΔT=Tavr+β·Vtmax,其中Tavr为历史标注用户的标注时间间隔平均值,Vtmax为历史标注用户的标注时间间隔与Tavr的差值最大值,β为-1至1之间的随机值。

根据本发明一优选实施例,所述步骤S4具体包括:

将所述标注组中各用户的标注关键词中一致率达到预设要求的标注关键词作为所述待标注图片的标注结果。

根据本发明一优选实施例,在所述步骤S4之后还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210167803.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top