[发明专利]视频中音频聚类的处理方法和装置有效
申请号: | 201911289077.4 | 申请日: | 2019-12-16 |
公开(公告)号: | CN110717067B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 闫启伟;黄宇凯;郝玉峰;曹琼;李科 | 申请(专利权)人: | 北京海天瑞声科技股份有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06K9/62;G06K9/00;G10L17/22;G10L17/02;G10L25/24 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;李志新 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 音频 处理 方法 装置 | ||
本公开涉及一种视频中音频聚类的处理方法和装置,其中,该方法包括:获取视频片段集,视频片段集包括多个视频片段;获取每个视频片段的音频;提取所述音频的音频特征;获取每个视频片段的人脸图像;提取人脸图像的人脸特征;基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;基于综合相似度,对音频进行聚类。通过本公开的处理方法,提高了音频聚类的准确率。
技术领域
本公开涉及音频聚类技术领域,具体是涉及一种视频中音频聚类的处理方法和装置。
背景技术
对于音频的聚类,除了采用人工听音频,根据音色的不同,通过主观判断对音频进行聚类之外,还往往通过提取该音频的声纹特征,基于提取得到的声纹特征进行聚类。通过这两种方式对音频进行聚类,其聚类的准确率存在瓶颈。
发明内容
为了克服相关技术问题,本公开提供一种视频中音频聚类的处理方法和装置。
第一方面,本公开实施例提供一种视频中音频聚类的处理方法,其包括:获取视频片段集,视频片段集包括多个视频片段;获取每个视频片段的音频;提取音频的音频特征;获取每个视频片段的人脸图像;提取人脸图像的人脸特征;基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;基于综合相似度,对音频进行聚类。
一种实施方式中,获取视频片段集包括:获取视频;基于视频,根据语音活动检测,对视频进行切分,得到视频片段集。
另一种实施方式中,获取每个视频片段的音频包括:基于视频片段,通过分轨处理,得到视频片段的音频。
又一种实施方式中,提取音频的音频特征,得到音频特征向量;提取人脸图像的人脸特征,得到人脸特征向量;基于音频特征和人脸特征,确定音频之间的综合相似度,包括:根据音频特征向量之间的第一距离,以及人脸特征向量之间的第二距离,确定音频之间的综合距离;基于综合相似度,对音频进行聚类,包括:基于综合距离,根据距离阈值对音频进行聚类。
又一种实施方式中,基于综合距离,根据距离阈值对音频进行聚类,包括:确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值;若综合距离的最小值小于或等于距离阈值,则将综合距离最小的音频进行聚类,并返回执行确定音频之间的综合距离的最小值,并判断最小值是否大于距离阈值的步骤;若综合距离最小值大于距离阈值,则完成对音频的聚类。
又一种实施方式中,获取每个视频片段的人脸图像包括:提取每个视频片段的图像代表帧,基于图像代表帧,切取图像代表帧中的人脸图像。
又一种实施方式中,提取每个视频片段的图像代表帧包括:基于每个视频片段,通过人脸特征检测、人脸校验,以及人脸姿态估计,提取每个视频片段的图像代表帧。
第二方面,本公开实施例提供了一种视频中音频聚类的处理装置,该视频中音频聚类的处理装置具有实现上述第一方面或第一方面任意一种实施方式中所涉及的视频中音频聚类的处理方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
一种实施方式中,视频中音频聚类的处理装置包括:获取视频片段集模块,用于获取视频片段集,视频片段集包括多个视频片段;获取音频模块,用于获取每个视频片段的音频;提取音频特征模块,用于提取音频的音频特征;获取人脸图像模块,用于获取每个视频片段的人脸图像;提取人脸特征模块,用于提取人脸图像的人脸特征;确定模块,用于基于视频片段的音频特征和人脸特征,确定音频之间的综合相似度;聚类模块,用于基于综合相似度,对音频进行聚类。
另一种实施方式中,获取视频片段集模块采用如下方式获取视频片段集:获取视频;基于视频,根据语音活动检测,对视频进行切分,得到视频片段集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海天瑞声科技股份有限公司,未经北京海天瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911289077.4/2.html,转载请声明来源钻瓜专利网。