[发明专利]对图像进行自动语义标注的方法、装置与计算机设备有效

专利信息
申请号: 201610320009.X 申请日: 2016-05-13
公开(公告)号: CN105930841B 公开(公告)日: 2018-01-26
发明(设计)人: 刘霄;王江;文石磊;丁二锐 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06K9/62;G06F17/30
代理公司: 北京汉昊知识产权代理事务所(普通合伙)11370 代理人: 罗朋
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图像 进行 自动 语义 标注 方法 装置 计算机 设备
【说明书】:

技术领域

发明涉及图像处理领域,尤其涉及一种对图像进行自动语义标注的方法、装置与包含该装置的计算机设备。

背景技术

近十多年来,随着计算机网络技术的迅速发展、普及应用以及数据存储器成本的大幅下滑,多媒体数据库的使用变得越来越普遍。以图像、音乐、视频形式展现的多媒体信息无论在商业还是娱乐中都显现出了日益重要的作用。如何对如此大量的数据进行有效地管理和组织,并从中搜索出用户所需要的信息就成为非常重要的问题。对于多媒体数据,尤其是图像数据的浏览、搜索以及索引技术的研究已经有了很长时间的历史。如今,有关图像数据库和视觉信息搜索的话题已经变成了研究领域中最为活跃的一部分。

要完成一次图像搜索,搜索引擎一般要求用户提供对于想要搜索的图像的描述。这些描述可以是一组关键字查询,或是一张案例图像。前一种的方式被称作为基于语义(标注)的图像搜索,后一种被称作为基于内容的图像搜索。

为实现基于语义的图像搜索,需要对数据库中的图像进行语义标注。图像语义自动标注是指利用计算机视觉技术,让计算机对图像中的内容进行理解,从而给图像自动标注出文本语义的过程。也就是说,图像语义自动标注是使计算机对图像的语义进行准确地描述和理解的过程,其本质上就是建立图像和文本语义之间的关联。

现有的图像语义标注方法主要有以下两种实现方式:

第一种是由计算机在整幅图像上提取特征,并对图像进行分类识别,也即,将整幅图像作为分类器的输入。然而,很多近似类别的图像的整体相似度很高,例如,不同型号的三厢轿车的图像可能只在若干细节上有区别,而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分,语义标注效果差。

第二种则是由人工确定图像的显著性区域,这些显著性区域可以体现不同的细粒度图像之间的差别,例如,不同品牌的车型的车标,不同品种的猫的眼睛。而后,再对这些显著性区域提取特征,进行细粒度的图像语义标注。但是,由于图像数据库中的图像的数量巨大,要为每幅图像人工确定其显著性区域,显然会消耗极大的人力资源,限制了这种解决方案的可行性。

只有解决现有技术中的上述问题,才能使图像语义的自动标注更进一步发展。

发明内容

本发明的目的是提供一种新的图像语义标注方法和装置,以解决现有技术中的上述问题。

具体地,根据本发明的第一方面的实施例,提供了一种对图像语义标注装置进行训练的方法,包括:a.提供多幅训练图像,各训练图像的语义和视觉属性描述已知;b.将至少部分所述训练图像输入到所述图像语义标注装置的定位器;c.由所述定位器确定输入的每幅训练图像的至少一个局部区域,并将所确定的各个局部区域输入到所述图像语义标注装置的属性预测器;d.由所述属性预测器得到输入的每个局部区域的视觉属性预测结果;e.根据得到的每个局部区域的视觉属性预测结果以及相应训练图像的已知的视觉属性描述,训练所述定位器和所述属性预测器。

具体地,所述多幅训练图像的语义为对应于同一粗粒度语义的不完全相同的细粒度语义。

具体地,所述粗粒度语义对应于一种粗粒度分类对象,不同的所述细粒度语义对应于属于该种粗粒度分类对象的不同的细粒度分类对象。

具体地,每个所述细粒度分类对象包含至少一个特征部位,所述视觉属性描述被根据其所对应的特征部位而划分为不同的组,所述方法包括:针对每个所述特征部位,重复所述步骤a至d直至收敛。

具体地,所述步骤a包括:对包含图像的网页进行挖掘,得到所述多幅训练图像、各训练图像的所述语义标签和所述视觉属性描述。

具体地,所述步骤e包括:针对每个所述局部区域,根据该局部区域的视觉属性预测结果和相应训练图像的视觉属性描述,计算损失函数,用于对所述定位器和所述属性预测器的训练。

具体地,所述步骤e还包括:根据反向传播算法,计算所述定位器和所述属性预测器的梯度,确定或更新所述定位器和所述属性预测器的参数。

具体地,该方法还包括:f.从所述多幅训练图像中选取至少一部分训练图像;g.由经过训练的所述定位器对选出的每幅训练图像进行处理,从而在该幅训练图像上定位该幅训练图像所对应的细粒度分类对象的至少一个特征部位;h.将为每幅选出的训练图像定位的特征部位、该训练图像的已知的语义标签输入到所述图像语义标注装置的分类器,对所述分类器进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610320009.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top