[发明专利]视频问答方法、装置、电子设备及存储介质有效
申请号: | 202111196420.8 | 申请日: | 2021-10-14 |
公开(公告)号: | CN114120166B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 冯博豪;刘雨鑫 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06F40/30;G06V10/82;G06N3/0442;G06N3/0464;G06N3/048;G06N3/045;G06N3/08 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 谷春静 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 问答 方法 装置 电子设备 存储 介质 | ||
1.一种视频问答方法,包括:
针对待回答的问题对应的视频,确定出M个关键帧,包括:针对所述视频中的任一视频帧,分别提取出所述视频帧中的物体信息,并利用语料库中的连接词以及所述物体信息,生成描述所述视频帧中的物体的句子,响应于生成的句子为符合语法规则的句子,将生成的句子作为所述视频帧的描述信息,否则,更新所述连接词,直到生成符合所述语法规则的句子,作为所述视频帧的描述信息;分别获取各视频帧的描述信息与所述问题之间的相关性评分;按照所述相关性评分从大到小的顺序对各视频帧进行排序,将排序后处于前M位的视频帧作为所述关键帧,所述M为大于1的正整数,且小于或等于所述视频中的视频帧数量;
分别获取各关键帧的向量表示,根据各关键帧的向量表示确定出所述问题对应的答案,包括:确定出所述问题的问题类型;响应于所述问题类型为直观问题,利用各关键帧的向量表示及所述问题确定出对应的答案,所述直观问题为仅利用所述视频中的信息进行回答的问题;响应于所述问题类型为非直观问题,利用各关键帧的向量表示、所述问题及对应的知识图谱确定出对应的答案,所述知识图谱包括通用知识图谱和/或根据所述视频构建的专用知识图谱;
还包括:针对任一关键帧,获取前一关键帧的向量表示与预定的第四权重参数的乘积以及所述关键帧的向量表示与预定的第五权重参数的乘积,将得到的两个乘积及预定的第二偏置向量相加,对相加之和进行双曲正切神经网络激活函数运算,将运算结果与预定的第六权重参数相乘,基于得到的乘积获取所述关键帧对应的时序注意力权重,并将所述时序注意力权重与所述关键帧的向量表示相乘,得到更新后的所述关键帧的向量表示,所述前一关键帧为位于所述关键帧之前、且与所述关键帧的时间距离最近的关键帧;
所述根据各关键帧的向量表示确定出所述问题对应的答案包括:根据各更新后的关键帧的向量表示确定出所述问题对应的答案。
2.根据权利要求1所述的方法,其中,所述分别获取各关键帧的向量表示包括:
针对任一关键帧,分别进行以下处理:
对所述关键帧进行目标区域提取;
对所述关键帧进行特征提取,得到所述关键帧对应的特征向量;
针对提取出的任一目标区域,分别对所述目标区域进行特征提取,得到所述目标区域对应的特征向量,并根据所述目标区域对应的特征向量生成所述目标区域的向量表示;
根据提取出的各目标区域的向量表示以及所述关键帧对应的特征向量生成所述关键帧的向量表示。
3.根据权利要求2所述的方法,其中,所述根据所述目标区域对应的特征向量生成所述目标区域的向量表示包括:
将所述目标区域对应的特征向量与以下至少一种向量进行拼接:所述目标区域所在的关键帧对应的特征向量、所述目标区域所在的关键帧对应的文本向量、所述视频对应的音频向量,并基于拼接结果获取所述目标区域的向量表示;
其中,所述文本向量为对从所述目标区域所在的关键帧中提取出的文本信息进行文本转向量后得到的向量,所述音频向量为对所述视频的音频对应的文本信息进行文本转向量后得到的向量。
4.根据权利要求3所述的方法,其中,所述基于拼接结果获取所述目标区域的向量表示包括:
获取所述目标区域对应的空间注意力权重,将所述空间注意力权重与所述目标区域对应的所述拼接结果相乘,并将相乘结果作为所述目标区域的向量表示。
5.根据权利要求4所述的方法,其中,所述获取所述目标区域对应的空间注意力权重包括:
根据问题向量以及所述目标区域对应的所述拼接结果确定出所述目标区域对应的空间注意力权重,所述问题向量为将所述问题对应的文本信息进行文本转向量后得到的向量。
6.根据权利要求5所述的方法,其中,所述根据问题向量以及所述目标区域对应的所述拼接结果确定出所述目标区域对应的空间注意力权重包括:
获取所述问题向量与预定的第一权重参数的乘积以及所述拼接结果与预定的第二权重参数的乘积;
将得到的两个乘积及预定的第一偏置向量相加,对相加之和进行双曲正切神经网络激活函数运算;
将运算结果与预定的第三权重参数相乘,基于得到的乘积获取所述目标区域对应的空间注意力权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111196420.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海洋防污涂层表面藤壶附着力的测量方法
- 下一篇:一种副井下口乘罐警示装置