[发明专利]用于提取视频片段的方法和装置在审
申请号: | 202011064001.4 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112182301A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 张沁怡;马彩虹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 视频 片段 方法 装置 | ||
1.一种用于提取视频片段的方法,包括:
获取视频,并提取所述视频的音频流;
确定所述音频流中各个预设时间段的音频数据中包含预设特征的置信度;
在所述视频中,提取与目标音频片段的位置相对应的目标视频片段;其中,所述目标音频片段为音频数据中包含所述预设特征的置信度在预设置信度阈值以上的、连续的预设时间段内的音频片段。
2.根据权利要求1所述的方法,其中,所述确定所述音频流中各个预设时间段的音频数据中包含预设特征的置信度,包括:
利用预设时间长度的窗口以预设时间步长在所述音频流上滑动,提取出各个所述预设时间长度的音频流片段;
确定各个所述音频流片段中包含所述预设特征的置信度;
针对每个预设时间段的音频数据,根据该预设时间段的音频数据所属的各个所述音频流片段中包含所述预设特征的置信度,确定该预设时间段的音频数据中包含所述预设特征的置信度。
3.根据权利要求1所述的方法,其中,所述预设置信度阈值为多个预设置信度阈值,所述在所述视频中,提取与目标音频片段的位置相对应的目标视频片段,包括:
针对所述多个预设置信度阈值中的每一个预设置信度阈值,确定音频数据中包含所述预设特征的置信度在该预设置信度阈值以上的、连续的预设时间段内的音频片段;
在根据所述多个预设置信度阈值确定出的多个音频片段中,确定出目标音频片段;
提取所述目标音频片段在所述视频中的位置对应的所述目标视频片段。
4.根据权利要求1所述的方法,其中,所述确定所述音频流中各个预设时间段的音频数据中包含预设特征的置信度,包括:
利用神经网络分类模型,确定所述音频流中各个预设时间段的音频数据中包含所述预设特征的置信度。
5.根据权利要求1-4之一所述的方法,其中,所述预设特征包括表征所述音频流中的音频数据的频谱变化超过预设频谱变化阈值的特征。
6.一种用于提取视频片段的装置,包括:
获取单元,被配置为获取视频,并提取所述视频的音频流;
确定单元,被配置为确定所述音频流中各个预设时间段的音频数据中包含预设特征的置信度;
提取单元,被配置为在所述视频中,提取与目标音频片段的位置相对应的目标视频片段;其中,所述目标音频片段为音频数据中包含所述预设特征的置信度在预设置信度阈值以上的、连续的预设时间段内的音频片段。
7.根据权利要求6所述的装置,其中,所述确定单元,包括:
截取模块,被配置为利用预设时间长度的窗口以预设时间步长在所述音频流上滑动,提取出各个所述预设时间长度的音频流片段;
第一确定模块,被配置为确定各个所述音频流片段中包含所述预设特征的置信度;
第二确定模块,被配置为针对每个预设时间段的音频数据,根据该预设时间段的音频数据所属的各个所述音频流片段中包含所述预设特征的置信度,确定该预设时间段的音频数据中包含所述预设特征的置信度。
8.根据权利要求6所述的装置,其中,所述预设置信度阈值为多个预设置信度阈值,所述提取单元,包括:
第三确定模块,被配置为针对所述多个预设置信度阈值中的每一个预设置信度阈值,确定音频数据中包含所述预设特征的置信度在该预设置信度阈值以上的、连续的预设时间段内的音频片段;
第四确定模块,被配置为在根据所述多个预设置信度阈值确定出的多个音频片段中,确定出目标音频片段;
提取模块,被配置为提取所述目标音频片段在所述视频中的位置对应的所述目标视频片段。
9.根据权利要求6所述的装置,其中,所述确定单元,包括:
神经网络模块,被配置为利用神经网络分类模型,确定所述音频流中各个预设时间段的音频数据中包含所述预设特征的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011064001.4/1.html,转载请声明来源钻瓜专利网。