[发明专利]一种音频片段的聚类方法、装置、电子设备和介质在审
申请号: | 202210828411.4 | 申请日: | 2022-07-13 |
公开(公告)号: | CN115050372A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 王斌;王乾坤;穆维林;杨晶生 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L17/18;G10L25/24;G10L25/30;G10L25/51;G10L25/84 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 片段 方法 装置 电子设备 介质 | ||
1.一种音频片段的聚类方法,其特征在于,所述方法包括:
获取第一音频片段对应的第一聚类结果,所述第一聚类结果中包括在所述第一音频片段内至少一个说话人的身份标识信息,和,与所述身份标识信息对应的时间戳信息;
获取当前采样周期采集的第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果;
其中,所述第二音频片段与上一采样周期采集的所述第一音频片段均截取自相同的实时音频流,所述第二聚类结果中包括在所述第二音频片段内至少一个说话人的身份标识信息,和,与所述身份标识信息对应的时间戳信息。
2.根据权利要求1所述的方法,其特征在于,所述当前采样周期小于所述第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果,包括:
根据所述当前采样周期小于所述第二音频片段,分别获取第一子片段和第二子片段,所述第一子片段为所述第一音频片段与所述第二音频片段中时间重叠部分的音频流,所述第二子片段为所述第二音频片段中除去所述第一子片段后的剩余音频片段;
根据所述第一聚类结果,按照说话人说话时间最长原则对所述第一子片段进行聚类,得到第一子结果;以及,
根据所述第一聚类结果,按照声纹特征匹配原则对所述第二子片段进行聚类,得到第二子结果。
3.根据权利要求2所述的方法,其特征在于,根据所述第一聚类结果,按照说话人说话时间最长原则对所述第一子片段进行聚类,得到第一子结果,包括:
利用所述匈牙利算法,根据所述第一聚类结果中每个说话人的说话时长和说话人对应的身份ID查找最优映射关系,得到所述第一子结果;其中,在所述最优映射关系下,聚类的音频部分的重叠时间最长。
4.根据权利要求2所述的方法,其特征在于,根据所述第一聚类结果,按照声纹特征匹配原则对所述第二子片段进行聚类,得到第二子结果,包括:
获取所述第二子片段对应的第一声纹特征,以及所述第一聚类结果中的至少一个第二声纹特征,每个第二声纹特征对应所述第一音频片段的一个说话人;
将所述第一声纹特征与所述至少一个第二声纹特征进行相似度比对;
如果所述至少一个第二声纹特征中存在目标第二声纹特征,所述目标第二声纹特征与所述第一声纹特征的相似度大于等于门限值,则标记所述第一声纹特征与所述目标第二声纹特征为同一说话人,得到所述第二子结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果不存在目标第二声纹特征,则标记所述第一声纹特征对应新的说话人,得到所述第二子结果,所述新的说话人不同于所述第一音频片段聚类的任一说话人。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于对所述实时音频流的各采样周期内针对同一说话人的声纹向量的平均值计算得到所述第二声纹特征。
7.根据权利要求1所述的方法,其特征在于,所述当前采样周期大于等于所述第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果,包括:
根据所述第一聚类结果,按照声纹特征匹配原则对所述第二音频片段进行聚类,得到所述第二聚类结果。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取当前采样周期采集的第二音频片段,包括:
在通过语音活动检测VAD检测出人声结束时,根据所述采样周期获取所述第二音频片段。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
基于所述第二聚类结果更新所述第一聚类结果,得到当前音频流的第三聚类结果,并展示所述第三聚类结果;所述当前音频流包括第一音频片段和第二音频片段,所述第三聚类结果包括在当前音频流内的至少一个说话人身份信息,和,与所述身份标识信息对应的时间戳信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210828411.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电脑端的图形用户界面系统
- 下一篇:一种视角可调液晶显示屏