[发明专利]基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法在审

专利信息
申请号: 201810349798.9 申请日: 2018-04-18
公开(公告)号: CN108830287A 公开(公告)日: 2018-11-16
发明(设计)人: 谢金宝;吕世伟;刘秋阳;李佰蔚;梁新涛;王玉静 申请(专利权)人: 哈尔滨理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 代理人: 荣玲
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图像特征 描述子 中文 网络 图像语义 网络结合 映射 残差 多层 语句 预处理 图像 神经网络模型 自然语言处理 计算机视觉 格式文件 模型生成 评估标准 评估数据 嵌入空间 特征矩阵 训练参数 训练模型 原始图片 连贯性 次特征 单隐层 数据集 图像集 训练集 评估 加载 卷积 可读性 嵌入 抽取
【说明书】:

发明一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法属于计算机视觉与自然语言处理领域;包括利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;建立单隐层神经网络模型将图像特征描述子映射到词嵌入空间;将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入;将原始图片输入到图说模型生成中文描述语句;使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估;本发明实现了用中文描述图像的技术问题,加强了语句的连贯性与可读性。

技术领域

本发明属于计算机视觉与自然语言处理领域,具体涉及一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法。

背景技术

对图像进行中文文本描述是一项结合计算机视觉与中文自然语言处理(NLP)的技术,随着日常生活中电子设备升级换代,人们产出图像数量的速度呈现指数型增长,对于日常生活而言,如何更高效的在海量的图像中搜索到用户所需求的图像信息,仅仅依靠传统的关键字检索方法不仅存在搜索速度过慢的问题而且也存在图像定位不准确问题,对于科研而言,在大数据时代,如果依靠人力对海量的图片进行标注,生成标签尤为显得不贴近实际。对图像进行准确的标注,这样不仅可以大大提高人们的图像检索效率,还可以为科研提供精准的数据用于分析,但是人工标注如此多的图像又不现实,因此自动为图像生成语言描述的技术应运而生,它要求机器不仅仅只是生成一个对于图像类别进行描述的标签词语,而是要在“理解图像”的内容之后,可以生成一个对图像的内容进行准确描述的包含上下文联系并且符合人类阅读习惯的句子。该技术的发展也将有助于图像标注,图像索引,智能图像识别以及聊天机器人等领域的发展。随着图像描述中文数据集的公开,使得设计出符合中国人阅读习惯的的图像语义化理解系统成为可能。

依靠传统手工特征结合的机器学习分类算法也可以实现对图像进行语义描述,但生成的中文语句无论从客观角度还是主观角度,语句的连贯性与可读性都不强。深度学习网络的应用使得这一问题有所改善但仍存在识别率低等缺点。

发明内容

针对上述问题,本发明的目的在于提供一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法;采用深度卷积神经网络模型利用其特征自学习能力对图像进行特征提取,提取到的图像特征具有一定的表述能力,语言模型的构建采用循环神经网络来作为描述语句的生成器,在序列数据处理方面表现优异,用来对图片中的内容进行推测,数据集方面选取AIChallenger图像中文描述数据集以及ImageNet图像数据集作为网络模型的训练数据。

本发明的目的是这样实现的:

一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,包括以下步骤:

步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AIChallenger图像描述评估集,利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;

步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;

步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;

步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810349798.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top