[发明专利]视频中音频聚类的处理方法和装置有效
申请号: | 201911289077.4 | 申请日: | 2019-12-16 |
公开(公告)号: | CN110717067B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 闫启伟;黄宇凯;郝玉峰;曹琼;李科 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06K9/62;G06K9/00;G10L17/22;G10L17/02;G10L25/24 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 音频 处理 方法 装置 | ||
1.一种视频中音频聚类的处理方法,其特征在于,所述方法包括:
获取视频;
基于所述视频,根据语音活动检测,对所述视频进行切分,得到视频片段集,所述视频片段集包括多个视频片段;
基于所述视频片段,通过分轨处理,得到所述视频片段的音频;
提取所述音频的音频特征;
基于每个所述视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取嘴唇轮廓变动、正面的人脸作为所述视频片段的图像代表帧,基于所述图像代表帧,切取所述图像代表帧中的人脸图像;
提取所述人脸图像的人脸特征;
基于所述视频片段的所述音频特征和所述人脸特征,确定所述音频之间的综合相似度;
基于所述综合相似度,对所述音频进行聚类。
2.根据权利要求1所述的处理方法,其特征在于,
提取所述音频的音频特征,得到音频特征向量;
提取所述人脸图像的人脸特征,得到人脸特征向量;
所述基于所述音频特征和所述人脸特征,确定所述音频之间的综合相似度,包括:
根据所述音频特征向量之间的第一距离,以及所述人脸特征向量之间的第二距离,确定所述音频之间的综合距离;
所述基于所述综合相似度,对所述音频进行聚类,包括:
基于所述综合距离,根据距离阈值对所述音频进行聚类。
3.根据权利要求2所述的处理方法,其特征在于,所述基于所述综合距离,根据距离阈值对所述音频进行聚类,包括:
确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值;
若所述综合距离的最小值小于或等于所述距离阈值,则将所述综合距离最小的所述音频进行聚类,并返回执行确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值的步骤;
若所述综合距离最小值大于所述距离阈值,则完成对所述音频的聚类。
4.一种视频中音频聚类的处理装置,其特征在于,所述装置包括:
获取视频片段集模块,用于获取视频,基于所述视频,根据语音活动检测,对所述视频进行切分,得到视频片段集,所述视频片段集包括多个视频片段;
获取音频模块,用于基于所述视频片段,通过分轨处理,得到所述视频片段的音频;
提取音频特征模块,用于提取所述音频的音频特征;
获取人脸图像模块,用于基于每个所述视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取嘴唇轮廓变动、正面的人脸作为所述视频片段的图像代表帧,基于所述图像代表帧,切取所述图像代表帧中的人脸图像;
提取人脸特征模块,用于提取所述人脸图像的人脸特征;
确定模块,用于基于所述视频片段的所述音频特征和所述人脸特征,确定所述音频之间的综合相似度;
聚类模块,用于基于所述综合相似度,对所述音频进行聚类。
5.根据权利要求4所述的处理装置,其特征在于,
所述提取音频特征模块采用如下方式提取所述音频的音频特征:
提取所述音频的音频特征,得到音频特征向量;
所述提取人脸特征模块采用如下方式提取所述人脸图像的人脸特征:
提取所述人脸图像的人脸特征,得到人脸特征向量;
所述确定模块采用如下方式确定所述音频的综合相似度:
根据所述音频特征向量之间的第一距离,以及所述人脸特征向量之间的第二距离,确定所述音频之间的综合距离;
所述聚类模块采用如下方式对所述音频进行聚类:
基于所述综合距离,根据距离阈值对所述音频进行聚类。
6.根据权利要求5所述的处理装置,所述聚类模块采用如下方式对所述音频进行聚类:
确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值;
若所述综合距离的最小值小于或等于所述距离阈值,则将所述综合距离最小的所述音频进行聚类,并返回执行确定所述音频之间的所述综合距离的最小值,并判断所述最小值是否大于所述距离阈值的步骤;
若所述综合距离最小值大于所述距离阈值,则完成对所述音频的聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911289077.4/1.html,转载请声明来源钻瓜专利网。