[发明专利]高光视频识别方法及装置、电子设备和存储介质在审
申请号: | 202210615599.4 | 申请日: | 2022-05-31 |
公开(公告)号: | CN115035441A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 张峰;李帅成;杨昆霖;侯军;伊帅 | 申请(专利权)人: | 上海商汤科技开发有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06V10/44;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 201306 上海市自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 识别 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种高光视频识别方法及装置、电子设备和存储介质,所述方法包括:提取待识别视频的视觉特征和音频特征,所述待识别视频被切分为多个视频片段,所述视觉特征包括按时序排列的多个视频片段的视觉子特征,所述音频特征包括按时序排列的多个视频片段的音频子特征;分别对所述视觉特征和音频特征进行编码,得到视觉编码特征和音频编码特征;对所述视觉编码特征和音频编码特征进行首尾拼接,得到拼接特征;基于自注意力机制对所述拼接特征进行特征编码,得到编码后的拼接特征;基于编码后的拼接特征,识别所述多个视频片段中的高光视频片段。本公开实施例可提高高光视频识别的准确率。
技术领域
本公开涉及计算机技术领域,尤其涉及一种高光视频识别方法及装置、电子设备和存储介质。
背景技术
视频高光检测技术主要应用于视频的自动剪辑、推荐、检索以及各种下游应用场景,通过计算机视觉技术来定位出视频中出现过的精彩片段或者亮点时刻,且该片段/时刻能够有效地引起观看者的兴趣。例如,对于一段篮球比赛的视频,该算法通过对视频输入和音频输入联合的建模,输出其中的精彩片段,如篮球精彩进球片段、绝杀镜头片段等。
传统的高光检测技术基于音视频同步的假设,但是,由于视频画面和声音之间在高亮时间上可能并不是同步的,其准确性有待进一步提高。
发明内容
本公开提出了一种高光视频识别技术方案。
根据本公开的一方面,提供了一种高光视频识别方法,包括:
提取待识别视频的视觉特征和音频特征,所述待识别视频被切分为多个视频片段,所述视觉特征包括按时序排列的多个视频片段的视觉子特征,所述音频特征包括按时序排列的多个视频片段的音频子特征;
分别对所述视觉特征和音频特征进行编码,得到视觉编码特征和音频编码特征;
对所述视觉编码特征和音频编码特征进行首尾拼接,得到拼接特征;
基于自注意力机制对所述拼接特征进行特征编码,得到编码后的拼接特征;
基于编码后的拼接特征,识别所述多个视频片段中的高光视频片段。
在一种可能的实现方式中,分别对所述视觉特征和音频特征进行编码,得到视觉编码特征和音频编码特征,包括:
提取所述视觉特征中的每个视觉子特征的第一全局上下文特征;
将各所述第一全局上下文特征与对应的视觉子特征进行融合,得到多个第一视觉子特征,作为所述视觉编码特征;
提取所述音频特征中的每个音频子特征的第二全局上下文特征;
将各所述第二全局上下文特征与对应的音频子特征进行融合,得到多个第一音频子特征,作为所述音频编码特征。
在一种可能的实现方式中,所述基于自注意力机制对所述拼接特征进行特征编码,得到编码后的拼接特征,包括:
提取所述拼接特征中的每个拼接子特征的第三全局上下文特征,其中,所述拼接子特征为第一视觉子特征或第一音频子特征;
将各所述第三全局上下文特征分别与对应的拼接子特征进行融合,得到编码后的拼接特征。
在一种可能的实现方式中,所述基于编码后的拼接特征,识别所述多个视频片段中的高光视频片段,包括:
在拼接位置处,对编码后的拼接特征进行拆分,得到第二视觉子特征和第二音频子特征;
将对应同一视频片段的第二视觉子特征和第二音频子特征进行融合,得到多个融合子特征;
基于所述融合子特征,确定所述融合子特征对应的片段是否为高光视频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海商汤科技开发有限公司,未经上海商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210615599.4/2.html,转载请声明来源钻瓜专利网。