[发明专利]一种嵌入场景文字信息的图像自然描述语句生成方法有效
申请号: | 201910700592.0 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110502655B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 肖春霞;赵坤 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F40/56;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 齐晨涵;姜学德 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 嵌入 场景 文字 信息 图像 自然 描述 语句 生成 方法 | ||
本发明公开一种嵌入场景文字信息的图像自然描述语句生成方法,利用场景文字信息来提升描述语句的语义丰富度。本方法在生成描述语句和检测识别出场景文字的基础上,来进行场景文字的嵌入任务。首先,需要对描述语句中的每一个词进行词性分析,找出其中的名词,每一个名词都能一一对应图像中的一个区域,然后计算名词所对应的图像区域的包围框和场景文字包围框的交并比来衡量两者是否存在依赖关系,如果交并比超过一定的阈值那么两者就存在依赖关系,否则不存在。最后,在保证语法正确性的前提下把场景文字嵌入到描述语句中。
技术领域
本发明属于图像自然描述语句生成领域,需要同时使用计算机视觉与自然语言处理两个领域的技术来完成图像信息到语言信息的转换。本发明利用场景文字信息来提升现有方法所生成的描述语句的语义丰富度。
背景技术
计算机视觉是一个让人工智能理解我们生活中的场景的领域,把这个概念具象化,就是让摄像机替代人的眼睛,对现实世界的信息进行收集,在此基础上,利用计算机对搜集的信息进行分析、处理,并做出相应的决策。自然语言处理是一个研究如何让人与计算机之间用自然语言进行有效沟通的领域,更具体地,就是让计算机理解人类的语言,并对人发出自然语言指令做出响应。扫地机器人、无人驾驶车辆、聊天机器人、实时翻译软件等一大批与计算机视觉、自然语言处理相关的技术已经逐渐融入我们的日常生活,让我们的生活更加智能、便捷。我们更期待机器能够将视觉信息与语言信息融会贯通,达到这一目的需要同时使用计算机视觉与自然语言处理这两个领域的技术,这也就是本发明所涉及的领域——图像自然描述语言的生成方法。图像的自然语言描述生成研究是一项极具有前景的工作,从应用层面来说,目前的自动驾驶车辆、无人超市等均需要对场景的感知和理解。从理论层面来说,图像的自然语言描述生成是更高级的人工智能中一项不可缺少的基础研究。
现在主流的方法都是有三个部分组成,第一个部分是视觉特征的提取,第二个部分是注意力机制,第三个部分是语言生成模型。其中视觉特征提取大多是采用目标检测方法,检测出图像中的对象。注意力机制负责生成每个单词的时候应该聚焦于图像中的哪块区域。语言生成模型一般是用循环神经网络来生成具体的单词。但是,现在的方法大多集中在改进算法的准确率,并没有对图像固有的信息进行深层次的挖掘。现实世界的场景当中有很多人造的文字信息,我们把这些文字叫做场景文字,比如广告牌,路标等。场景文字本身含有丰富的语义信息,加入了场景文字的描述语句对图像的描述更加准确,比如,“adelllaptop”,比“alaptop”更准确。图像的自然描述语言显然是要尽可能准确的描述图像中的场景。本发明就是着眼于此,提出了一种嵌入了场景文字信息的图像自然描述语言生成方法。
发明内容
本发明的目的是利用自然场景中的场景文字信息,来提升图像自然描述语句的语义丰富度。本方法的核心在于提出了一个无监督的场景文字嵌入方法,在不需要训练的情况下,能够把检测出来的场景文字嵌入到生成的自然描述语句中。
本发明所设计的嵌入场景文字信息的图像自然描述语句生成方法,其特征在于,包括以下步骤:
步骤1,使用公开的数据集构建两个数据集(D1,D2):D1为训练联合检测场景文字与普通目标的数据集,D2为验证本发明提出的无监督的场景文字嵌入方法的数据集;
步骤2,对Faster R-CNN方法进行改进,以适应联合检测场景文字与普通对象的需要,并使用D1训练改进后的模型;
步骤3,对Top-Down方法进行改进,以减轻过拟合风险,并使用D2数据集训练改进后的模型;
步骤4,在D2中任取一张图像,使用步骤2,步骤3训练好的模型来生成检测结果与自然描述语句,并保留注意力机制产生的中间结果;使用公开的方法或者商业API对每一个检测出的场景文字进行识别,保留识别后的结果。
步骤5,根据步骤4的结果,使用依赖关系分析的方法,分析描述语句成分,提取其中的名词;找出名词对应的图像区域,计算每一个场景文字与每一个图像区域的交并比(IOU),交并比计算公式,如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910700592.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置