[发明专利]一种提高视频文本描述准确性的编码器网络模型设计方法在审

申请号：	202010706821.2	申请日：	2020-07-21
公开（公告）号：	CN111985612A	公开（公告）日：	2020-11-24
发明（设计）人：	朱虹;熊鸽;潘晓容;杨恺庆;刘晶晶;杜森;王栋	申请（专利权）人：	西安理工大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06F40/30;G06F16/783
代理公司：	西安弘理专利事务所 61214	代理人：	罗笛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提高视频文本描述准确性编码器网络模型设计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种提高视频文本描述准确性的编码器网络模型设计方法，步骤包括：步骤1、构建视频的视觉特征提取编码器，步骤2、构建视频的语义特征提取编码器，步骤3、获取语义特征，步骤4、训练S‑LSTM网络模型。本发明的方法，在编码网络模型中，利用视频的特征提取更精确的语义信息，并且放大各语义单词之间的差异性，进而得到更准确的语义特征；该语义特征输入至解码网络后，对视频进行文本描述；与目前检索到的主流论文发表的算法指标相比，视频的文本描述的准确性有明显的提高。

技术领域

本发明属于视频文本描述算法技术领域，涉及一种提高视频文本描述准确性的编码器网络模型设计方法。

背景技术

视频文本描述算法是指对于给定的一段视频，自动输出视频内容的语言描述。视频文本描述算法在实际中具有重要意义和广泛应用。比如面对海量的视频数据，可以利用视频文本描述对用户点击过的视频进行快速分析，从而为用户进行个性化服务；并且也可以利用视频文本描述算法生成的文本描述，对用户上传的短视频进行智能审核。除此之外，视频文本描述在幼儿的早期辅助教育、视频检索、以及帮助弱视群体更好的获取信息等方面有着十分重要的应用。

在视频文本描述的过程中，需要把视频转化为文本输出，因此准确的提取视频包含的语义信息具有重要作用。准确的语义信息是输出视频文本描述的前提条件，这部分的工作是在模型的编码器中完成，但是现有技术在这方面还存在输出信息不准确、输出速度慢的不足。

发明内容

本发明的目的是提供一种提高视频文本描述准确性的编码器网络模型设计方法，解决了现有技术在视频文本描述过程中，语义信息提取不准确导致输出文本描述不准确的问题。

本发明采用的技术方案是，一种提高视频文本描述准确性的编码器网络模型设计方法，按照以下步骤实施：

步骤1、构建视频的视觉特征提取编码器，

步骤2、构建视频的语义特征提取编码器，

步骤3、获取语义特征，

步骤4、训练S-LSTM网络模型。

本发明的有益效果是，在编码网络模型中，利用视频的特征提取更精确的语义信息，并且放大各语义单词之间的差异性，进而得到更准确的语义特征；该语义特征输入至解码网络后，对视频进行文本描述；与目前检索到的主流论文发表的算法指标相比，视频的文本描述的准确性有明显的提高。

附图说明

图1是本发明方法的视频语义提取编码网络模型的总体结构流程框图；

图2是本发明方法视频语义提取编码网络模型中的Highway Layer模块的结构流程图；