[发明专利]结合抽象语义表示的图像描述生成方法、系统及介质有效
申请号: | 202010581219.0 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111612103B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 唐晋韬;陈凤;李莎莎;庞焜元;王挺;王攀成;林登雯;何亮亮;徐钦杭 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06N3/0442;G06N3/092;G06F40/30;G06F40/126;G06F40/284 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 抽象 语义 表示 图像 描述 生成 方法 系统 介质 | ||
本发明公开了一种结合抽象语义表示的图像描述生成方法、系统及介质,本发明训练用于生成图像描述的语言生成器的步骤包括针对训练数据集进行抽象语义表示标注;基于训练数据集训练抽象语义表示预测器;将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征作为输入训练语言生成器;使用训练好的语言生成器对测试集图像中的图像生成图像描述;针对语言生成器进行效果评测。本发明结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征,充分发挥图像视觉和语义特征的互补性,使两种特征在描述生成的过程中相辅相成,使之互为补足,从而提高生成句子的质量,生成更准确和含义丰富的描述语句。
技术领域
本发明涉及图像资源的信息增强方法,具体涉及一种结合抽象语义表示的图像描述生成方法、系统及介质,用于使用图像的抽象语义表示特征,在图像描述生成任务中作为视觉特征的辅助信息,从而对图像生成更准确且含义丰富的描述文本。
背景技术
随着科技发展和信息时代到来,报纸、手机、相机及网络社交媒体等提供了丰富的图像资源,其中很大一部分图像资源为视觉与语言信息的结合。这些多模态图像信息的产生为我们实现更多应用场景提供了可能,比如理解/阅读辅助,自动监控,无人驾驶汽车,自动标签生成和对话系统等。图像描述生成即为用于生成多模态图像信息中语言描述信息的手段。
传统的图像理解任务生成无结构的标签列表,它识别并分割出图像中的对象、确定其对应属性、计算对象和属性的相互关系。而图像描述生成则是对给定的一张图像生成描述语句,准确且充分表达图像所包含的内容。从计算机视觉角度来看,该任务极具挑战性,因为它不仅要求模型准确识别图像中的重要内容(对象、属性及背景等),还要理解内容之间的关系,甚至推断出未出现在图像中的内容;从自然语言处理角度来看,该任务是一个自然语言生成(Natural Language Generation)问题,其需要将获取到的图像信息进行整合,从而进一步生成符合自然语言规则且准确描述图像内容的句子。
基于生成的方法最先用于解决该问题,包括基于模版、句法分析和语言模型的方法。基于模版的方法预先定义包含多个空槽(slot)的模版,用模型识别到的对象、属性和关系标签对空槽进行填充,从而生成描述句子;基于句法分析的方法则首先识别对象、属性、对象之间空间关系、场景类型、行为等,然后使用依存句法树/图将句子的各个部件逐步组合成句子;基于语言模型的方法首先生成多个候选句子片段,通过语言模型对这些片段进行重新组合,从而得到最终描述。此类方法受限于人工设计的模板、不完备的语言以及句法模型,生成的句子形式单一,不具有多样性。
基于检索的方法将该任务看作检索问题。它首先用将输入图像表示为特定的特征,然后基于图像特征的相似性由训练数据集找到相似的图像候选,这些候选图像对应的描述即生成描述句子的候选,最后通过一定的排序算法得到最终结果。该类方法充分利用训练数据集,但是其依赖于训练语料,不能生成训练集以外的文本,当测试集于训练集相关性不大时,结果会很差。
得益于深度学习技术的发展,基于编码-解码框架的方法取得了突出的效果并成为近几年图像描述生成任务的主流解决方法。该方法首先在编码阶段使用深度卷积神经网络(CNN)提取图像特征,在解码阶段,使用编码阶段的输出作为RNN/LSTM等序列生成模型的输入,生成描述文本。人类视觉系统中的注意力机制被引入深度学习,使基于注意力的模型成为图像描述生成任务的主体框架。此类框架使用Faster R-CNN提取图像的多个候选块,从而在图像部分实现不同区域之间实现注意力机制,在文本生成部分改进原始LSTM结构,同时采用强化学习技术进一步优化模型性能。还有工作将属性、关系、外部知识和场景图等额外信息引入模型作为图像的辅助信息以生成更准确和含义丰富的描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010581219.0/2.html,转载请声明来源钻瓜专利网。