[发明专利]基于神经网络的视频描述生成方法、存储介质及终端设备在审

申请号：	201811195508.6	申请日：	2018-10-15
公开（公告）号：	CN109359214A	公开（公告）日：	2019-02-19
发明（设计）人：	赵峰;杜展;王健宗;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/73	分类号：	G06F16/73;G06N3/04
代理公司：	深圳中一专利商标事务所 44237	代理人：	官建红
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	帧序列神经网络图像帧视频描述预设特征向量语义向量终端设备视频词向量计算机可读存储介质计算机技术领域解码器归一化指数词语序列存储介质工作效率编码器帧间隔输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于神经网络的视频描述生成方法，其特征在于，包括：

按照预设的帧间隔提取视频的图像帧，并将提取出的各个图像帧构造为所述视频的帧序列；

分别计算所述帧序列中各个图像帧的特征向量；

将所述帧序列中各个图像帧的特征向量依次输入到预设的神经网络编码器中进行处理，输出所述帧序列的语义向量；

将所述帧序列的语义向量输入到预设的神经网络解码器中进行处理，生成所述帧序列的词向量序列；

使用归一化指数函数对所述词向量序列进行处理，生成所述视频的描述词语序列。

2.根据权利要求1所述的视频描述生成方法，其特征在于，所述神经网络编码器根据下式进行状态更新：

其中，LSTM⁽¹⁾为预设的第一长短期记忆网络，x_t为所述第一长短期记忆网络在时刻t的输入，h_t⁽¹⁾为所述第一长短期记忆网络在时刻t的隐藏层状态向量，h_t-1⁽¹⁾为所述第一长短期记忆网络在时刻t-1的隐藏层状态向量；

所述神经网络解码器根据下式进行状态更新：

其中，LSTM⁽²⁾为预设的第二长短期记忆网络，w_t-1为所述第二长短期记忆网络在时刻t-1生成的词向量，为由所述第二长短期记忆网络在时刻t-1生成的词向量与所述第一长短期记忆网络在时刻t的隐藏层状态向量组合成的向量，c_t为所述第二长短期记忆网络在时刻t使用的注意力向量，h_t⁽²⁾为所述第二长短期记忆网络在时刻t的隐藏层状态向量，h_t-1⁽²⁾为所述第二长短期记忆网络在时刻t-1的隐藏层状态向量。

3.根据权利要求2所述的视频描述生成方法，其特征在于，所述注意力向量的设置过程包括：

根据下式计算所述注意力向量：

其中，为预设的权重系数，且为预设的对齐函数。

4.根据权利要求3所述的视频描述生成方法，其特征在于，所述对齐函数的设置过程包括：

从以下函数集合中选取一个函数作为所述对齐函数：

其中，W_a和W_b均为预设的系数。

5.根据权利要求2至4中任一项所述的视频描述生成方法，其特征在于，所述第一长短期记忆网络和所述第二长短期记忆网络中的各个神经网络单元根据下式进行数据处理：

其中，i_t为输入门在时刻t的输出，f_t为遗忘门在时刻t的输出，o_t为输出门在时刻t的输出，W_xi，W_hi，W_xf，W_hf，W_xo，W_ho，W_xg，W_hg，b_i，b_f，b_o，b_g均为预设的参数，sigmoid为S型生长函数，且tanh为双曲正切函数，且