[发明专利]基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法在审
申请号: | 201810349798.9 | 申请日: | 2018-04-18 |
公开(公告)号: | CN108830287A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 谢金宝;吕世伟;刘秋阳;李佰蔚;梁新涛;王玉静 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 荣玲 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法属于计算机视觉与自然语言处理领域;包括利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;建立单隐层神经网络模型将图像特征描述子映射到词嵌入空间;将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入;将原始图片输入到图说模型生成中文描述语句;使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估;本发明实现了用中文描述图像的技术问题,加强了语句的连贯性与可读性。 | ||
搜索关键词: | 图像特征 描述子 中文 网络 图像语义 网络结合 映射 残差 多层 语句 预处理 图像 神经网络模型 自然语言处理 计算机视觉 格式文件 模型生成 评估标准 评估数据 嵌入空间 特征矩阵 训练参数 训练模型 原始图片 连贯性 次特征 单隐层 数据集 图像集 训练集 评估 加载 卷积 可读性 嵌入 抽取 | ||
【主权项】:
1.一种基于残差连接的Inception网络结合多层GRU网络的中文图像语义描述方法,其特征在于,包括以下步骤:步骤a、准备ImageNet图像数据集、AI Challenger图像描述训练集以及AI Challenger图像描述评估集,利用开源框架tensorflow对AI Challenger图像中文描述训练集以及评估集进行预处理生成用于训练的tfrecord格式文件;步骤b、利用Inception_ResNet_v2网络对ImageNet数据集进行预训练,得到卷积网络预训练模型;步骤c、加载预训练参数至Inception_ResNet_v2网络中并对AI Challenger图像集进行图像特征描述子的抽取;步骤d、对图像标注集采用中文分词组件jieba进行分词处理,依据分词后每个词语出现的频率由高到低建立词频词典,并给予每个词语唯一的数字编号建立索引;步骤e、建立单隐层神经网络模型提取描述集的词嵌入特征,并将图像特征描述子映射到词嵌入空间;步骤f、将词嵌入特征矩阵与二次特征映射后的图像特征描述子作为双层GRU网络的输入,通过训练网络得到最终图说模型;步骤g、将原始图片输入到训练好的图说模型生成中文描述语句;步骤h、使用评估数据集利用训练好的模型以Perplexity指标作为评估标准进行评估。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810349798.9/,转载请声明来源钻瓜专利网。