[发明专利]一种结合BERT模型的图像描述生成方法有效
申请号: | 201911025320.1 | 申请日: | 2019-10-25 |
公开(公告)号: | CN110852331B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 宋荣伟;刘汪洋;曹扬 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/82;G06F40/289;G06F40/30;G06F40/242;G06N3/0455;G06N3/0442 |
代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 宋妍丽 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 bert 模型 图像 描述 生成 方法 | ||
本发明提供了一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。本发明通过对特征向量进行压缩与维度扩充,增强图像数据的特征表达含义;利用基于端到端并加入注意力机制的图像描述生成模型生成弱语义图像描述语句,同时对于词汇不足的问题采用应用外部语料数据扩充词典的方式,增强语义含义,使所生成的图像描述能更准确的表征图像的内容,具有更丰富的语义。
技术领域
本发明涉及一种结合BERT模型的图像描述生成方法,属于图像处理技术领域。
背景技术
图像具有直观、形象的特点,便于人们接受,但随着智能手机及网络技术的发展,网络上有大量的图片产生,庞大的信息使得人们在进行图像检索阅读时花费大量时间。因此,如何通过自动化的方法快速生成图像的描述,并对其进行筛选过滤成为一个迫切需求,图像描述生成技术是一个合理有效的解决方案。此外,生成图像的描述语句还能帮助盲人理解图像内容。
在现有技术中,随着深度学习的发展,图像描述生成技术主要是采用深度学习方法,使用机器来自动生成对图像关键信息的自然语言描述语句,但这些方法由于训练数据集有限,无法涵盖所有领域的图像信息,因此生成的图像描述语句存在词语缺失以及语义信息不足等问题,无法得到很好的效果。
发明内容
为解决上述技术问题,本发明提供了一种结合BERT模型的图像描述生成方法,该结合BERT模型的图像描述生成方法相对于传统的基于端到端并加入注意力机制的图像描述生成方法,解决了图像描述生成语句语义信息不足的问题,并针对生成语句词汇不足的情况进行了补充,从而能够更准确的描述图像数据的语义含义。
本发明通过以下技术方案得以实现。
本发明提供的一种结合BERT模型的图像描述生成方法,首先提取图像的特征向量,对特征向量进行压缩、维度扩充,其次,用外部语料数据扩充词典,然后,将特征向量和词典输入基于端到端加入注意力机制的图像描述生成模型,生成弱语义描述语句A,最后,通过BERT模型对弱语义描述语句A进行语义调整,获取完整的图像描述语句。
基于一种结合BERT模型的图像描述生成方法,包括以下步骤:
①提取特征向量:采用图像特征提取模型提取出图像的特征向量,并表示成固定维度;
②特征向量压缩、维度扩充:对特征向量进行特征嵌入,将高维度的特征压缩为低维度的特征,然后对维度进行扩充;
③词典扩充:通过外部语料数据对图像描述生成模型所用的词典进行扩充;
④生成式图像描述模型:将特征向量和词典输入基于Seq2Seq+Attention机制的图像描述生成模型,生成弱语义描述语句A;
⑤结合BERT模型进行语义调整:通过BERT模型的上下文预测功能,对弱语义描述语句A中的语义表达进行调整;
⑥图像描述语句:获取完整的图像描述生成语句。
所述步骤①中,图像特征提取采用ResNet50模型,提取出的图像特征维数为2048维。
所述步骤②中,将原有的2048维特征压缩为128维,再运用特征向量扩充得到(None,1,128)的张量。
所述步骤③中,词典扩充采用维基百科各领域文本数据,并用分词后的词语对词典进行扩充。
所述步骤④中,图像描述生成模型由Seq2Seq+Attention机制的编码器和基于LSTM的解码器组成,并采用Attention机制来增大重要信息权重。
所述步骤③分为以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911025320.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种剪切带钢的方法及装置
- 下一篇:一种热收缩膜对折装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序