[发明专利]一种基于无监督独特性优化的图像描述生成方法及系统在审
申请号: | 201911324479.3 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111126479A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 吴烨;李锐;金长新 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06F16/532 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 冯春连 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 独特性 优化 图像 描述 生成 方法 系统 | ||
1.一种基于无监督独特性优化的图像描述生成方法,其特征在于,该方法的实现过程包括:
S1、获取成对的图像和人类生成的真实句子描述,并存储在训练集中;
S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型;
S3、构建图像描述生成模型;
S4、获取训练集的图像并输入图像描述生成模型,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中;
S5、利用训练得到的图像描述检索模型,估计比较集中成对数据的相似性,获得图像描述生成模型的损失和梯度两类参数;
S6、判断估计结果是否在设定范围内,若不在则利用步骤S5的损失和梯度调整图像描述生成模型,返回执行步骤S4,若在则输出最终图像描述生成模型。
2.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,所述图像描述生成模型采用编码器-解码器框架;
所述编码器使用在ImageNet上预训练好的ResNet-101;
所述解码器使用带有注意力机制的两层LTSM,第一层LSTM关注于视觉上的信息,第二层LSTM则关注于语言上的信息。
3.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S4的具体步骤包括:
S4.1、获取训练集的图像并分成多个batch,依次且循环将多个batch所包含的图像输入图像描述生成模型;
S4.2、每个batch所包含的图像输入图像描述生成模型后,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中,且在多个batch所包含的图像开始循环输入图像描述生成模型时,比较集原来存储的成对数据被清空。
4.根据权利要求3所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S5的具体步骤包括:
S5.1、将batch所包含的成对数据映射到同一个空间中;
S5.2、通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性,得到调整图像描述生成模型的损失和梯度两类参数。
5.根据权利要求4所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S6的具体步骤包括:
S6.1、手动设定阈值范围,并判断损失和梯度是否在阈值范围内,
a)、若在阈值范围内,则输出最终图像描述生成模型;
b)、若不在阈值范围内,则继续执行S6.2;
S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型;
S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型,返回执行S4.2。
6.根据权利要求5所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,得到最终图像描述生成模型后,还可以再次执行步骤S6.1-步骤S6.3,检验得到的损失和梯度两类参数是否仍在设定范围内,
a)如果检验结果仍在设定范围内,则表明最终图像描述生成模型通过检验;
b)如果检验结果不在设定范围内,则表明最终图像描述生成模型未通过检验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324479.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车机文字翻译的检查方法
- 下一篇:一种高铁车身外表面清洗剂及其制备方法