[发明专利]一种基于深度LSTM网络的图像描述生成方法有效
申请号: | 201611022441.7 | 申请日: | 2016-11-16 |
公开(公告)号: | CN106650789B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王瀚漓;汤鹏杰 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/764;G06V10/80;G06V10/774;G06N3/0464;G06N3/0442;G06N3/045 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 宣慧兰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度LSTM网络的图像描述生成方法,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。与现有技术相比,本发明具有多层次、提高表达能力、有效更新、准确性高等优点。 | ||
搜索关键词: | 一种 基于 深度 lstm 网络 图像 描述 生成 方法 | ||
【主权项】:
一种基于深度LSTM网络的图像描述生成方法,其特征在于,包括以下步骤:1)提取图像描述数据集中图像的CNN特征并获取与图像对应描述参考句子中单词的嵌入式向量;2)建立双层LSTM网络,其中,第一层LSTM以单词的嵌入式向量为输入,第二层LSTM以第一层LSTM的输出和CNN网络输出的图像的CNN特征为输入,并结合双层LSTM网络和CNN网络进行序列建模生成多模LSTM模型;3)采用联合训练的方式对多模LSTM模型进行训练,将CNN网络和LSTM网络中的参数进行联合优化;4)逐层增加多模LSTM模型中LSTM网络的层次,每增加一层并进行训练,直至生成图像描述句子的质量性能不再提升,最终获得逐层多目标优化及多层概率融合的图像描述模型;5)将逐层多目标优化及多层概率融合的图像描述模型中多层LSTM网络中各分支输出的概率分值进行融合,采用共同决策的方式,将概率最大对应的单词输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611022441.7/,转载请声明来源钻瓜专利网。
- 上一篇:隔离开关故障检测方法
- 下一篇:一种基于蜂群智能的遥感影像聚类方法