[发明专利]一种基于动态词嵌入的多模态Transformer的图像描述方法在审

专利信息
申请号: 202110537165.2 申请日: 2021-07-19
公开(公告)号: CN113344036A 公开(公告)日: 2021-09-03
发明(设计)人: 曾凯;杨文瑞;朱艳;沈韬;刘英莉 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06T9/00;G06F40/30
代理公司: 昆明同聚专利代理有限公司 53214 代理人: 王远同
地址: 650000 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 动态 嵌入 多模态 transformer 图像 描述 方法
【说明书】:

发明公开一种基于动态词嵌入的多模态Transformer的图像描述方法,属于人工智能的领域。本发明构建了一种同时进行模态内与模态间注意力的模型,实现了多模态信息的融合,将卷积神经网络与Transformer进行桥接,并将图像信息以及文本信息在同一向量空间进行融合,提高了模型进行语言描述的准确率;减少了图像描述领域存在的语义鸿沟问题,本发明相对于使用Bottom‑up与LSTM的基线模型在BLEU‑1、BLEU‑2、BLEU‑3、BLEU‑4、ROUGE‑L、CIDEr‑D上都有提高。

技术领域

本发明涉及一种基于动态词嵌入的多模态Transformer的图像描述方法,属于人工智能技术领域。

背景技术

多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起,多模态深度学习已在社会生产中的各个方面有了众多应用,起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。例如:在语音识别中,人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息,可以帮助消除相似语音的歧义,以及通过肢体行为和语音来判断说话者的情绪等等。

采用自然语言对图像中的内容进行描述,被称作为图像字幕描述。语义不仅需要计算机识别图像的对象和属性,还需要理解他们的关系,生成语法语义正确的自然语言。最早应用的图像处理方法是借助传统的机器学习加以实现,例如通过图像处理算子对图像进行特征提取,再借助支持向量机(SVM)划分图像类型,从而得到图像目标。据此得到的目标与属性即为生成语句的基础,而实际中使用本方法时取得的效果未达到预期。深入探索本领域研究历程,划分图像语义描述为三种类型,分别为基于检索的图像描述、基于模板的图像描述及基于深度学习的图像描述。

基于检索的方法是指使用基本的图像处理算法,提取出图像的特征值,并且检测出图像的目标,获取其相应的标签信息,然后根据所得到的标签信息在相应的语料库中进行检索,寻找最为匹配的的描述作为图像的标题然而,这种方法只能对一幅图像进行标题的生成,而且只能生成语料库中的标题,标题不具有多样性,有些刻板生硬,并且不能准确直观的描述出图像中目标的相对关系,导致两幅出现了相同目标但位置关系完全不同的图像生成的标题却是相同的。基于模板的方法,主要使用相对成熟的计算机视觉技术来进行图像信息的特征提取,这里的图像信息既包括图像中的目标,业包括目标的属性,然后将这些检测到的目标填入模板。这种方法在很大程度上解决了生成文本不够丰富的问题。但是由于该方法对人为设置的模板以及语法模型十分的依赖,所以导致生成的自然语言描述的结构也十分的单一。近年来。随着技术的不断发展,使用神经网络来进行图像描述的方法变得成熟,使用卷积神经网络(CNN)来进行图像特征值的提取,使用循环神经网络(RNN)来进行描述的生成的这种编码解码框架成为主流。虽然基于CNN-RNN框架的图像描述算法已经取得了很好的准确率,但是仍然存在不足:现在有基于CNN-RNN的方法都大多在进行当前的主要工作都是在不同的模态间引入注意力机制,寻求图像与文本之间的注意力得分,而忽略了模态内的自注意力,即寻求图像特征与文本描述模态内的自我注意,这使得图像底层视觉信息和最终的自然语言描述存在明显的语义鸿沟,导致模型不能很好表示图像目标之间的语义关系。

发明内容

本发明提供了一种基于动态词嵌入的多模态Transformer的图像描述方法,本方法使用的是多模态深度学习模型,使用模态间与模态内注意力的联合建模方式,对输入的数据进行建模,从而生成相应的描述,解决了传统方法中只是用模态间注意力而导致模型对语义理解不够全面并且效果较差的问题,具体包括以下步骤:

(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵。

(2)使用Transformer的图像特征编码器组件,对图像特征进行编码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110537165.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top