[发明专利]一种自动图像语义描述方法在审
申请号: | 201710969647.9 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107807971A | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 吕学强;董志安;李卓 | 申请(专利权)人: | 北京信息科技大学;吕学强 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 图像 语义 描述 方法 | ||
1.一种自动图像语义描述方法,其特征在于,包括构建及训练基于CNN和GRU的自动图像语义描述模型,具体为:
步骤1)定义目标函数;
步骤2)进行从图像到语义描述翻译的过程;
步骤3)对误差进行反向的传播。
2.根据权利要求1所述的自动图像语义描述方法,其特征在于,步骤1)中的目标函数为
3.根据权利要求1-2所述的自动图像语义描述方法,其特征在于,所述步骤2)如以下公式所示:
x-1=CNN(I);
xt=West,t∈{0,...N-1};
ht=GRU(xt),t∈{0,...N-1};
pt+1=g(Wpht);
其中,I代表一幅图像,S=(s0,s1,s2,...sn)代表这幅图像的完整的语义描述,由n个单词组成。st采用独热编码形式;其中s0是一个特殊单词“start”,代表一句话的开始;sn是一个特殊单词“end”,代表着一句话的结束。
4.根据权利要求1所述的自动图像语义描述方法,其特征在于,所述步骤3包括:
定义损失函数:该损失函数是将所有时刻预测单词正确的log概率值求和后取负数的结果,即交叉熵损失函数;
通过训练不断更新模型中的参数,使得损失值尽量小;
利用随机梯度下降法以及链式求导法则更新所述参数。
5.根据权利要求1所述的自动图像语义描述方法,其特征在于,所述参数包括GRU模型内部参数、词向量编码参数、图像特征编码参数、输出解码参数。
6.根据权利要求1-5所述的自动图像语义描述方法,其特征在于,在模型的训练过程中,每一时刻的GRU网络的权值参数都是共享的,上一时刻GRU网络的输出,作为当前时刻GRU网络的部分输入。
7.根据权利要求1-6所述的自动图像语义描述方法,其特征在于,CNN包含卷积层和池化层两种隐含层结构。
8.根据权利要求1-7所述的自动图像语义描述方法,其特征在于,CNN的下一层神经元与上一层神经元之间不是全连接的,即其神经元之间是局部感知的;另一方面神经元连接过程中具有相同的权重,即神经元的连接是权重共享的。
9.根据权利要求1-8所述的自动图像语义描述方法,其特征在于,GRU的结构中存在重置门限,其表示为其中σ为激活函数,xt是t时刻的输入信息,ht-1是t-1时刻隐含层的输出信息,为t时刻重置门限输入层权值,为t时刻重置门限隐含层权值。
10.根据权利要求1-9所述的自动图像语义描述方法,其特征在于,GRU的结构中存在更新门,其可以表示为公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强,未经北京信息科技大学;吕学强许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710969647.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于加权匹配点的三维模型检索方法
- 下一篇:一种试验数据一致性检测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序