[发明专利]一种提高视频文本描述准确性的编码器网络模型设计方法在审
申请号: | 202010706821.2 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111985612A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 朱虹;熊鸽;潘晓容;杨恺庆;刘晶晶;杜森;王栋 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F40/30;G06F16/783 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 罗笛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 视频 文本 描述 准确性 编码器 网络 模型 设计 方法 | ||
本发明公开了一种提高视频文本描述准确性的编码器网络模型设计方法,步骤包括:步骤1、构建视频的视觉特征提取编码器,步骤2、构建视频的语义特征提取编码器,步骤3、获取语义特征,步骤4、训练S‑LSTM网络模型。本发明的方法,在编码网络模型中,利用视频的特征提取更精确的语义信息,并且放大各语义单词之间的差异性,进而得到更准确的语义特征;该语义特征输入至解码网络后,对视频进行文本描述;与目前检索到的主流论文发表的算法指标相比,视频的文本描述的准确性有明显的提高。
技术领域
本发明属于视频文本描述算法技术领域,涉及一种提高视频文本描述准确性的编码器网络模型设计方法。
背景技术
视频文本描述算法是指对于给定的一段视频,自动输出视频内容的语言描述。视频文本描述算法在实际中具有重要意义和广泛应用。比如面对海量的视频数据,可以利用视频文本描述对用户点击过的视频进行快速分析,从而为用户进行个性化服务;并且也可以利用视频文本描述算法生成的文本描述,对用户上传的短视频进行智能审核。除此之外,视频文本描述在幼儿的早期辅助教育、视频检索、以及帮助弱视群体更好的获取信息等方面有着十分重要的应用。
在视频文本描述的过程中,需要把视频转化为文本输出,因此准确的提取视频包含的语义信息具有重要作用。准确的语义信息是输出视频文本描述的前提条件,这部分的工作是在模型的编码器中完成,但是现有技术在这方面还存在输出信息不准确、输出速度慢的不足。
发明内容
本发明的目的是提供一种提高视频文本描述准确性的编码器网络模型设计方法,解决了现有技术在视频文本描述过程中,语义信息提取不准确导致输出文本描述不准确的问题。
本发明采用的技术方案是,一种提高视频文本描述准确性的编码器网络模型设计方法,按照以下步骤实施:
步骤1、构建视频的视觉特征提取编码器,
步骤2、构建视频的语义特征提取编码器,
步骤3、获取语义特征,
步骤4、训练S-LSTM网络模型。
本发明的有益效果是,在编码网络模型中,利用视频的特征提取更精确的语义信息,并且放大各语义单词之间的差异性,进而得到更准确的语义特征;该语义特征输入至解码网络后,对视频进行文本描述;与目前检索到的主流论文发表的算法指标相比,视频的文本描述的准确性有明显的提高。
附图说明
图1是本发明方法的视频语义提取编码网络模型的总体结构流程框图;
图2是本发明方法视频语义提取编码网络模型中的Highway Layer模块的结构流程图;
图3是本发明方法的视频语义提取编码网络模型中的放大单词差异模块的结构流程图;
图4是本发明所采用的解码网络模型的结构流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提高视频文本描述准确性的编码器网络模型设计方法,按照以下步骤实施:
步骤1、构建视频的视觉特征提取编码器,具体过程是,
1.1)建立训练数据集,
训练一个深度学习网络的数据集,要求很大量的已经标注过的样本构成的,考虑到自行打标有一定的局限性,并且工作量巨大,因此,本步骤选择公开发表的数据集作为训练集的样本;
实施例选用已经公开发表的MSVD数据集视频样本和MSRVTT数据集若干个视频的视觉特征作为语义特征提取网络的训练集的样本;在MSRVTT数据集中,随机选出作为训练集的数据样本之后,留下的部分视频样本作为验证集的样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010706821.2/2.html,转载请声明来源钻瓜专利网。