[发明专利]一种智能图像识别和描述方法有效
申请号: | 201810776374.0 | 申请日: | 2018-07-09 |
公开(公告)号: | CN109145946B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 孔锐;谢玮 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/774;G06V10/77;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 图像 识别 描述 方法 | ||
1.一种智能图像识别和描述方法,其特征在于,包括步骤:
1)用卷积神经网络来提取输入图像的特征,生成固定长度的特征向量;
2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像;
方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec,LSTM记忆单元之间展开连接;
用I表示输入图像,用S=(S0,...,SN)表示描述该图像正确的文本描述,则展开过程如下:
x-1=CNN(I) (1)
xt=WeSt,t∈{0...N-1} (2)
pt+1=LSTM(xt),t∈{0...N-1} (3)
其中,用一位有效编码的向量St表示每个单词,St的维度与字典中单词的数量相等;用S0表示一个特定的开始单词,用SN表示一个特定的停止单词,S0、SN用来指定句子的开始和结束;当生成停止单词时,表示模型已经生成了完整的句子;输入图像和输入单词都被映射到相同的空间,其中,输入图像是通过使用卷积神经网络的Inception V4生成特征向量x-1,输入单词是通过使用单词嵌入模型的word2vecWe生成512维的词向量xt,word2vecWe为单词嵌入模块;图像I只在t=-1时刻输入一次,将图像的内容传达给LSTM。
2.根据权利要求1所述的智能图像识别和描述方法,其特征在于,卷积神经网络包括图像嵌入模型Inception V4,用Inception V4来提取输入图像的特征。
3.根据权利要求1所述的智能图像识别和描述方法,其特征在于,模型训练过程包括:1)在ImageNet数据集上预训练Inception V4,用训练后的Inception V4初始化模型的卷积神经网络;2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。
4.根据权利要求3所述的智能图像识别和描述方法,其特征在于,初始学习率为2.0,学习率衰减因子为0.5。
5.根据权利要求3所述的智能图像识别和描述方法,其特征在于,该 模型的损失是每个时间步中正确单词的负对数概率之和,如下所示:
其中,pt(St)为每个时间步中正确单词的概率,训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vecWe这3个模块中的参数,以最小化公式(4)中的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810776374.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序