[发明专利]一种基于文本引导图模型的图像描述生成方法有效
申请号: | 201911402003.7 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111062451B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 胡珍珍;王德鹏;刘祥龙;洪日昌;汪萌 | 申请(专利权)人: | 合肥工业大学;北京航空航天大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/84;G06V10/80;G06V10/774;G06N3/045;G06N3/042;G06N3/0464;G06N3/0442;G06N3/047;G06N3/084 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 引导 模型 图像 描述 生成 方法 | ||
本发明公开了一种基于文本引导图模型的图像描述生成方法,属于图像描述生成技术领域,包括以下步骤:S10、建立引导文本候选集;S20、引导文本提取;S30、视觉特征提取:基于卷积神经网络的Faster R‑CNN模型对给定图片产生L个目标检测区域;S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型;S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本,扩展了输入信息的多样性,不仅关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。
技术领域
本发明涉及图像描述生成技术领域,尤其涉及一种基于文本引导图模型的图像描述生成方法。
背景技术
图像描述生成技术是根据给定图像自动生成描述图像内容的语句,它是横跨计算机视觉与自然语言处理之间的一门新兴研究方向,需要对视觉内容包括各种实体及其相互关系进行全面的理解。现在图像描述生成的主流方法是利用一个端到端的模型,将图片特征通过编解码方式翻译成文字。但这些方法只关注了个体的视觉要素,而忽略语义实体之间的关系。现有的基于视觉关系的图像描述生成方法通常依赖于要大量的人工来标注图像目标之间的关系结构。
因此,急需一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法。
发明内容
本发明目的在于提供一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法,发明的内容如下:
一种基于文本引导图模型的图像描述生成方法,包括以下步骤:
S10、建立训练集:从数据集中检索出视觉相似图片,每张图片标注有描述语句,将描述语句集合起来打分排序,从排序前三句中随机挑选一句作为引导文本,组建引导文本训练集;
打分排序方法为:根据给定的图片对象特征将包含视觉特征相似图像收集到一个集合,然后通过额外考虑图片的整体风格进一步筛选出m张相似图片;由筛选出的m张相似图片的相关描述语句{Ci},i=1,2,...,N,并根据图片的每一句描述得分排序,根据每句描述得分,从文本训练集中选择前n个描述文本作为引导文本的候选描述,并从候选描述中随机选取一个描述作为引导文本,所述描述得分的计算方式如下:
其中,Sim(Ci,Cj)为两个句子Ci和Cj通过TF-IDF算法得到的相似度;
S20、引导文本提取:对于给定的图片,根据图片的对象特征,基于引导文本训练集,提取引导文本;
S30、视觉特征提取:基于卷积神经网络的FasterR-CNN模型对给定图片产生L个目标检测区域,L是指目标检测区域的数量;将每个目标检测区域看作是一个节点构建关系图G={V,E,A},其中,V表示检测到物体节点的集合,所述物体节点由图片特征向量和边界框组成;E代表学习到的图节点之间的连线集合;A是图的邻接矩阵;
S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将所述文本特征向量和图像视觉特征用非线性函数融合生成图像区域表征,构建图模型;
S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述语句字幕。
进一步地,所述图模型去学习一个有关于特定文本的邻接矩阵A,其中边A(i,j)代表了节点i和j之间的关系强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学;北京航空航天大学,未经合肥工业大学;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911402003.7/2.html,转载请声明来源钻瓜专利网。