[发明专利]视频描述生成方法、装置、视频播放方法、装置和存储介质有效
申请号: | 201810072504.2 | 申请日: | 2018-01-24 |
公开(公告)号: | CN110072142B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 王景文;姜文浩;马林;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/4402 | 分类号: | H04N21/4402;H04N21/84 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 描述 生成 方法 装置 播放 存储 介质 | ||
本发明揭示了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。所述方法包括:提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;通过前向和后向递归神经网络编码视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;根据前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间,进而预测所述事件的视频内容描述。在区分重叠事件的基础上,引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词,对于在此视频编码时刻上重叠的事件而言,即便发生着重叠,仍然是对应于不同区间的,在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度,以此类推,对给定的视频流进行着更有区分度的事件描述。
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种视频描述生成方法、装置、视频播放方法、装置和计算机可读存储介质。
背景技术
随着计算机视觉技术在人工智能上的突破性应用,计算机视觉技术中视频描述生成的应用量有了爆炸性的增长,视频描述生成的实现被部署到各种应用中,为应用完成视频内容描述任务。
现有的视频描述生成,是通过单向递归网络来检测事件,得到事件表征向量,并输入到另一个解码的递归网络中,以产生对应的事件描述。
但是,由于是通过单向递归网络,并且由随之而生成的隐状态向量作为事件表征向量,因此,对于结束时间相近的事件,即在时间上存在重叠的事件,并无法准确定位得到,从而对于时间上存在重叠的事件,其所对应视频内容的准确描述更无从谈起。
也就是说,视频描述生成的实现中无法有效区分重叠事件,并对重叠事件进行更有区分度的描述。
发明内容
为了解决相关技术的视频描述生成实现中难以区分重叠事件,且无法对重叠事件进行更有区分度的描述的技术问题,本发明提供了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。
一种视频描述生成方法,所述方法包括:
提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;
通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;
根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;
根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述视频编码时刻所对应的词;
通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。
一种视频描述生成装置,所述装置包括:
特征提取模块,用于提取视频特征,获得对应于视频流中视频编码时刻的视频特征序列;
编码模块,用于通过前向和后向递归神经网络编码所述视频特征序列,获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列;
定位模块,用于根据所述前向隐状态序列和后向隐状态序列,定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间;
描述预测模块,用于根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述,生成所述事件在所述视频编码时刻所对应的词;
描述构建模块,用于通过所述事件对应于视频编码时刻的所有词,构建所述视频流中事件的自然语言描述。
一种视频描述生成装置,包括:
处理器;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810072504.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种媒体处理方法、装置、设备和存储介质
- 下一篇:一种视频流解码方法和装置