首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于卷积神经网络的视频描述方法及装置在审

申请号：	201811536611.2	申请日：	2018-12-14
公开（公告）号：	CN111325068A	公开（公告）日：	2020-06-23
发明（设计）人：	潘滢炜;姚霆;梅涛	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06F16/78;G06N3/04;G06N3/08
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	荣甜甜;刘芳
地址：	100195 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积神经网络视频描述方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积神经网络的视频描述方法，其特征在于，包括：

对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列；

将所述视觉特征序列中的视觉特征依次输入编码器，得到各所述视频帧的状态向量，所述状态向量包含对应视频帧的上下文语义；

确定各所述视频帧的状态向量的平均池化结果；

将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，其中，所述编码器和所述解码器是通过卷积神经网络算法学习到的。

2.根据权利要求1所述的方法，其特征在于，所述将所述平均池化结果输入至解码器，以获得与所述待描述视频对应的描述结果，包括：

确定所述待描述视频的中间向量，所述中间向量是所述平均池化结果经过所述解码器中预设层数的卷积块后得到的；

根据所述中间向量和所述状态向量，确定时序注意力值；

根据所述时序注意力机制和所述中间向量，获得与所述待描述视频对应的描述结果。

3.根据权利要求1或2所述的方法，其特征在于，所述对待描述视频的每一视频帧提取视觉特征，得到视觉特征序列之前，还包括：

利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器和/或所述解码器，所述训练集合包含至少一对训练视频和所述训练视频对应的描述结果。

4.根据权利要求3所述的方法，其特征在于，所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述编码器，包括：

对于所述训练集中的每一个训练视频，对所述训练视频的每一视频帧提取视觉特征，得到训练视觉特征序列，所述训练视频包含N帧，所述训练视觉特征序列v＝(v₁，v₂，……v_N)；

将所述训练视觉特征序列输入到待训练编码器，所述待训练编码器包含L个卷积块，L≥2且为整数；

对所述待训练编码器包含L个卷积块进行训练，得到所述编码器。

5.根据权利要求4所述的方法，其特征在于，所述对所述待训练编码器包含L个卷积块进行训练，得到所述编码器，包括：

根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，其中，所述第l-1个卷积块的输出结果为第l个卷积块的输出结果为所述表示第l个卷积块对所述训练视频的第i帧的视觉特征的输出结果；

根据所述L个卷积块中各卷积块的输出结果，对所述L个卷积块进行训练，得到所述编码器。

6.根据权利要求5所述的方法，其特征在于，所述根据第l-1个卷积块的输出结果，确定第l个卷积块的输出结果，包括：

将所述p^l-1中的子序列输入至所述第l个卷积块中的第一一维卷积，得到所述子序列中每个采样位置的偏移量，所述第l个卷积块的卷积核大小为k，所述p^l-1中的子序列为r_n表示所述R中的第n个元素；

根据所述p^l-1中的子序列的每个采样位置的偏移量，对所述p^l-1中的子序列中对应的采样位置进行偏移，得到中间子序列；

将所述中间子序列输入至所述第l个卷积块的第二一维卷积，得到所述第二一维卷积的输出结果；

根据所述第二一维卷积的输出结果和门线性单元，确定所述第l个卷积块的输出结果。

7.根据权利要求3所述的方法，其特征在于，所述利用卷积神经网络算法对训练集包含的视频-描述对进行训练，得到所述解码器，包括：

对于所述训练集中的每一个训练视频，对所述训练视频的平均池化结果和所述训练视频对应的描述结果输入到待训练解码器，所述待训练解码器包含M个卷积块，M≥2且为整数；

对所述待训练解码器包含的M个卷积块进行训练，得到所述解码器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司，未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811536611.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种系统评测方法、装置、电子设备及可读存储介质
下一篇：库存管理方法、装置、系统及存储介质

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top