[发明专利]一种智能图像识别和描述方法有效

专利信息
申请号: 201810776374.0 申请日: 2018-07-09
公开(公告)号: CN109145946B 公开(公告)日: 2022-02-11
发明(设计)人: 孔锐;谢玮 申请(专利权)人: 暨南大学
主分类号: G06V10/82 分类号: G06V10/82;G06V10/774;G06V10/77;G06N3/04;G06N3/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510632 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能 图像 识别 描述 方法
【权利要求书】:

1.一种智能图像识别和描述方法,其特征在于,包括步骤:

1)用卷积神经网络来提取输入图像的特征,生成固定长度的特征向量;

2)用提取出的特征向量初始化循环神经网络语言模型LSTM,从而生成句子,描述该输入图像;

方法包括LSTM模型、图像嵌入模型Inception V4和单词嵌入模型word2vec,LSTM记忆单元之间展开连接;

用I表示输入图像,用S=(S0,...,SN)表示描述该图像正确的文本描述,则展开过程如下:

x-1=CNN(I) (1)

xt=WeSt,t∈{0...N-1} (2)

pt+1=LSTM(xt),t∈{0...N-1} (3)

其中,用一位有效编码的向量St表示每个单词,St的维度与字典中单词的数量相等;用S0表示一个特定的开始单词,用SN表示一个特定的停止单词,S0、SN用来指定句子的开始和结束;当生成停止单词时,表示模型已经生成了完整的句子;输入图像和输入单词都被映射到相同的空间,其中,输入图像是通过使用卷积神经网络的Inception V4生成特征向量x-1,输入单词是通过使用单词嵌入模型的word2vecWe生成512维的词向量xt,word2vecWe为单词嵌入模块;图像I只在t=-1时刻输入一次,将图像的内容传达给LSTM。

2.根据权利要求1所述的智能图像识别和描述方法,其特征在于,卷积神经网络包括图像嵌入模型Inception V4,用Inception V4来提取输入图像的特征。

3.根据权利要求1所述的智能图像识别和描述方法,其特征在于,模型训练过程包括:1)在ImageNet数据集上预训练Inception V4,用训练后的Inception V4初始化模型的卷积神经网络;2)使用无动量的随机梯度下降和学习率指数衰减来训练模型的LSTM、单词嵌入word2vec以及Inception V4顶层这3个部分的权重。

4.根据权利要求3所述的智能图像识别和描述方法,其特征在于,初始学习率为2.0,学习率衰减因子为0.5。

5.根据权利要求3所述的智能图像识别和描述方法,其特征在于,该 模型的损失是每个时间步中正确单词的负对数概率之和,如下所示:

其中,pt(St)为每个时间步中正确单词的概率,训练模型中LSTM模块、图像嵌入模块Inception V4的顶层和单词嵌入模块word2vecWe这3个模块中的参数,以最小化公式(4)中的损失。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810776374.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top