[发明专利]一种中文视觉词汇表构建的图像内容自动描述方法有效
申请号: | 202010374110.X | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581961B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 张凯;周建设;刘杰;吕学强 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06V10/40;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南昌华成联合知识产权代理事务所(普通合伙) 36126 | 代理人: | 徐苍 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 视觉 词汇表 构建 图像 内容 自动 描述 方法 | ||
1.一种中文视觉词汇表构建的图像内容自动描述方法,其特征在于,包括:
步骤a,使用中文分词工具将图像对应的若干个描述语句进行分词处理,并根据词频统计,保留分词中的名词、动词和形容词,保留下来的词语构成中文视觉词汇表;
步骤b,所述中文视觉词汇表形成数据集,通过特征提取网络将该数据集预训练形成图像提取特征数据,将该图像提取特征数据平均池化,输出图像特征,将所述图像特征输入特征分类网络的输入层,并由特征分类网络的输出层输出预测图像对应的标签信息,获得图像标签预测网络的数据;
步骤c,基于卷积神经网络和长短期记忆网络构建的图像自动描述模型,使用卷积神经网络作为编码器,提取出图像卷积特征,再使用长短期记忆网络作为解码器,将所述图像卷积特征作为初始输入进行解码,生成为中文描述语句;
步骤d,基于损失函数对所述解码器进行优化,具体为:计算图像标签预测网络的数据与所述解码器最终时刻细胞状态之间的距离,将该距离作为一个额外项加入损失函数中,并在优化时缩短图像标签预测网络的数据与细胞状态的距离。
2.如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法,其特征在于:所述图像自动描述模型进行预测时,解码器首先接受图像卷积特征,并忽略这一时刻的输出;然后输入一个开始符号Start和所述图像标签预测网络的数据后,解码器输出一个由词表中词语被预测的概率组成的向量,根据输出向量选取概率最大的词语作为本时刻输出;再把这个词语和所述图像标签预测网络的数据作为下一时刻的输入,继续进行预测,直到预测出结束符号End。
3.如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法,其特征在于:所述编码器包括卷积、下采样和激活操作中的一种或多种。
4.如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法,其特征在于:所述特征分类网络是基于残差连接的三层全连通网络,其中包括输入层、三个隐藏层、两个残差连接以及输出层,所述残差连接添加在第一层全连接与第三层全连接之间、第二层全连接与第三层全连接之间。
5.如权利要求2所述的中文视觉词汇表构建的图像内容自动描述方法,其特征在于:所述解码器能够接收图像标签预测网络的数据,并利用图像标签预测网络的数据引导中文描述语句的生成。
6.如权利要求1所述的中文视觉词汇表构建的图像内容自动描述方法,其特征在于:所述距离的计算方法采用曼哈顿距离或欧式距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010374110.X/1.html,转载请声明来源钻瓜专利网。