[发明专利]一种提高视频文本描述准确性的编码器网络模型设计方法在审
申请号: | 202010706821.2 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111985612A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 朱虹;熊鸽;潘晓容;杨恺庆;刘晶晶;杜森;王栋 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F40/30;G06F16/783 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 罗笛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提高 视频 文本 描述 准确性 编码器 网络 模型 设计 方法 | ||
1.一种提高视频文本描述准确性的编码器网络模型设计方法,其特征在于,按照以下步骤实施:
步骤1、构建视频的视觉特征提取编码器,
步骤2、构建视频的语义特征提取编码器,
步骤3、获取语义特征,
步骤4、训练S-LSTM网络模型。
2.根据权利要求1所述的提高视频文本描述准确性的编码器网络模型设计方法,其特征在于:所述的步骤1中,具体过程是,
1.1)建立训练数据集,
选用已经公开发表的MSVD数据集视频样本和MSRVTT数据集若干个视频的视觉特征作为语义特征提取网络的训练集的样本;在MSRVTT数据集中,随机选出作为训练集的数据样本之后,留下的部分视频样本作为验证集的样本;
1.2)建立语义词典,
从训练集的样本和验证集的样本的标注中选择最常用的K个单词,组成语义概念集合,
假设训练集的样本总数为N,对其中的第i个视频样本,i=1,2,...,N,利用选择的K个单词对训练集的样本进行语义词典标注,语义属性标注的计算公式如下:
Yi=[yi,1,yi,2,...,yi,K],i=1,2,...,N (1)
其中,
1.3)构建视觉特征提取编码器,
本步骤构建的视觉特征提取编码器的基本模型结构是二维卷积网络ResNeXt和三维卷积网络ECO,取二维卷积网络ResNeXt中的conv5/block3的池化层输出的M1维特征向量描述视频的二维视觉特性;取三维卷积网络ECO的全局池化层输出的M2维特征向量描述视频的三维视觉特性;将这两个特征向量拼接后,作为视频的视觉特征,每个视频对应的视觉特征向量是M=M1+M2维,这样,训练集的N个样本的视觉特征表达式如式(3):
Xi=[xi,1,xi,2,...,xi,M],i=1,2,...,N。 (3) 。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010706821.2/1.html,转载请声明来源钻瓜专利网。