[发明专利]一种自动图像语义描述方法在审
申请号: | 201710969647.9 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107807971A | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 吕学强;董志安;李卓 | 申请(专利权)人: | 北京信息科技大学;吕学强 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 图像 语义 描述 方法 | ||
技术领域
本发明属于图像语义描述技术领域,具体涉及一种自动图像语义描述方法。
背景技术
近年来,人类一直致力于计算机对图像语义理解的研究。随着计算机软硬 件技术的发展,自动图像语义描述技术成为近几年的研究热点。自动图像语义 描述不仅要理解图像中的实体,而且要理解图像中所描述的事件、场景等,是 对图像语义更深入的理解。现在的自动图像语义描述还处在起步阶段,由于图 像存在的“语义鸿沟”问题以及自然语言本身的语法结构的复杂多变问题,计 算机一直以来无法实现对图像语义信息的精准描述。随着近几年计算机硬件以 及深度学习技术在图像领域的迅速发展,越来越多的研究人员投入到自动图像 语义描述研究当中。深度学习技术比如卷积神经网络模型相比于其他人工设计 的图像特征有更好地提取图像特征的能力,但是深度学习技术需要依赖较强的 计算能力,近几年计算机硬件比如GPU等硬件设施的发展为深度学习技术提供 了强大的计算支持,这使得自动图像语义描述这种较为困难的工作成为当下机 器视觉领域的研究热点。
如今的世界正走向智能化时代。越来越多的未来技术,如无人驾驶,智能 机器人等渐渐地走入大众视野。无人驾驶需要计算机对路况信息进行自动理解, 智能机器人需要设计仿真眼模拟人眼和人脑的功能来识别周围的物体。这些都 依赖于计算机对图像的深入理解。自动图像语义描述将图像内容自动描述成自 然语言,然后供计算机后续理解图像内容。因此自动图像语义描述是未来智能 化时代的支撑性技术,具有重要的研究意义和商用价值。自动图像语义描述的 研究正处在发展起步阶段。目前取得的研究成果还不多。一方面是因为图像本 身描述内容较为复杂,现阶段图像“语义鸿沟”问题并没有得到有效解决,图 像中物体识别精度不高。另一方面自动图像语义描述是将图像内容描述成自然 语言,然而自然语言本身形式并不固定且句式较多。如何将图像内容表示成内 容丰富、句式多变的自然语言是很困难并且很具挑战性的。自动图像语义描述 常规思路是先对图像中的实体标注词汇,然后使用语言模型将词汇组合成句。 由于图像本身包含的内容较为丰富,且图像上的一些物体可能被覆盖或者不完 整,经图像分割后的物体无法被精确识标注,这直接导致图像语义描述精度不 高。而且这种方法的语义描述内容形式较为单一,结构较为简单,对图像语义 的理解不够精确全面。卷积神经网络(CNN)近年来被应用到提取图像特征上, 在现有技术中,将经CNN提取的图像特征作为循环神经网络(RNN)的输入, 图像语义描述信息作为RNN的输出,将图像语义描述问题看作从图像到语义 描述的翻译过程,构建了基于CNN和RNN的自动图像语义描述模型。但是该 方法对图像语义的理解的精准度不高,使用该模型标注的语句不够通顺,标注 内容的精确度不高。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的自动图像语义描述方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种自动图像语义描述方法,包括构建及训练基于CNN和GRU的自动图像 语义描述模型,具体为:
步骤1)定义目标函数;
步骤2)进行从图像到语义描述翻译的过程;
步骤3)对误差进行反向的传播。
进一步地,步骤1)中的目标函数为
其中θ代表该模型中所有的参数,I代表一幅图像,S=(S0,...SN)代表最终预 测的单词组合,即最终的语义描述。
进一步地,所述步骤2)如以下公式所示:
x-1=CNN(I);
xt=West,t∈{0,...N-1};
ht=GRU(xt),t∈{0,...N-1};
pt+1=g(Wpht);
其中,I代表一幅图像,S=(s0,s1,s2,...sn)代表这幅图像的完整的语义描述, 由n个单词组成。st采用独热编码形式;其中s0是一个特殊单词“start”,代表 一句话的开始;sn是一个特殊单词“end”,代表着一句话的结束。
进一步地,所述步骤3)包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强,未经北京信息科技大学;吕学强许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710969647.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于加权匹配点的三维模型检索方法
- 下一篇:一种试验数据一致性检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序