[发明专利]一种视频处理方法、装置以及计算机可读存储介质有效
申请号: | 202110787287.7 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113242361B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 刘强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N5/04 | 分类号: | H04N5/04;G10L21/055 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 处理 方法 装置 以及 计算机 可读 存储 介质 | ||
1.一种视频处理方法,其特征在于,所述方法包括:
获取待处理视频中的音频数据;
对所述音频数据进行人声提取处理,得到所述音频数据中的人声信号;
根据所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间,所述目标检测时间区间包括参考时间点,所述参考时间点包括所述实际起始时间点和所述实际结束时间点中的一种或两种;
获取所述待处理视频中所述目标检测时间区间对应的视频片段;
确定所述视频片段中的图像对应的嘴部张合度;
按照时间顺序从所述视频片段中确定至少两张图像;
根据所述至少两张图像对应的嘴部张合度确定嘴部张合度的波动值;
若所述波动值大于或等于设定波动阈值,则将所述至少两张图像中时间顺序排在最后的图像对应的时间点作为预测时间点;
根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果。
2.如权利要求1所述的方法,其特征在于,所述对所述音频数据进行人声提取处理,得到所述音频数据中的人声信号,包括:
对所述音频数据进行变换处理,得到所述音频数据的声谱图;
利用图像识别网络对所述声谱图进行人声提取处理,得到目标声谱图;
对所述目标声谱图进行反变换处理,得到所述音频数据中的人声信号。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间,包括:
获取所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种;
将所述实际起始时间点和所述实际结束时间点中的一种或两种作为参考时间点;
根据设定的偏移量和所述参考时间点确定目标检测时间区间。
4.如权利要求1或2所述的方法,其特征在于,所述确定所述视频片段中的图像对应的嘴部张合度,包括:
对所述视频片段进行抽帧处理,得到一张或多张图像;
获取所述一张或多张图像中任一张图像的嘴部区域;
对所述嘴部区域进行关键特征点检测处理,得到所述嘴部区域中一对或多对关键特征点的位置信息;
根据所述一对或多对关键特征点的位置信息确定所述任一张图像对应的嘴部张合度。
5.如权利要求4所述的方法,其特征在于,所述根据所述一对或多对关键特征点的位置信息确定所述任一张图像对应的嘴部张合度,包括:
针对所述一对或多对关键特征点中的任一对关键特征点,根据所述任一对关键特征点包括的两个关键特征点的位置信息,确定所述任一对关键特征点包括的两个关键特征点之间的距离;
利用所述任一对关键特征点包括的两个关键特征点之间的距离确定距离均值,并将所述距离均值确定为所述任一张图像对应的嘴部张合度。
6.如权利要求1或2所述的方法,其特征在于,所述参考时间点包括实际起始时间点和实际结束时间点中的一种或两种,所述预测时间点包括预测起始时间点和预测结束时间点中的一种或两种,所述根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果,包括:
确定所述参考时间点和所述预测时间点之间的偏差量,所述偏差量包括所述实际起始时间点和所述预测起始时间点之间的第一偏差量,以及所述实际结束时间点和所述预测结束时间点之间的第二偏差量中的一种或两种;
若所述偏差量大于或等于设定偏差阈值,则确定所述待处理视频的音画同步检测结果为音画不同步;
若所述偏差量小于所述设定偏差阈值,则确定所述待处理视频的音画同步检测结果为音画同步。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787287.7/1.html,转载请声明来源钻瓜专利网。