[发明专利]一种音频片段的聚类方法、装置、电子设备和介质在审
申请号: | 202210828411.4 | 申请日: | 2022-07-13 |
公开(公告)号: | CN115050372A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 王斌;王乾坤;穆维林;杨晶生 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L17/18;G10L25/24;G10L25/30;G10L25/51;G10L25/84 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 片段 方法 装置 电子设备 介质 | ||
本公开提供了一种音频片段的聚类方法、装置、电子设备和介质,该聚类方法包括:获取第一音频片段对应的第一聚类结果,获取当前采样周期采集的第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果;其中第二音频片段与上一采样周期采集的第一音频片段均截取自相同的实时音频流,第二聚类结果中包括在第二音频片段内至少一个说话人的身份标识信息和与身份标识信息对应的时间戳信息。本方法实现了流式的说话人音频流的切分和聚类,并在线实时更新说话人信息,从而能实时地反映说话人说话的情况,提高了说话人识别的精准度和用户体验。
技术领域
本公开涉及人工智能技术领域,尤其是涉及一种音频片段的聚类方法、装置、电子设备和介质。
背景技术
说话人分割聚类(speaker diarization,SD)是指按照说话人的身份,将不同说话人的声音区分开来的技术,它解决了“谁在什么时候说了话”的问题。
在对音频文件进行解析的过程中,一般地,支持针对不同说话人使用不同麦克风的情况,即只能通过不同麦克风或收音装置来识别出不同的说话人和说话内容,如果有两个或两个以上说话人使用同一麦克风。例如在一会议室中,有两个或两个以上用户相继发言,在这种话情况下,无法检测出当前说话人是谁,包括不能检测出当前说话人新否为新增,还是之前的说话人,进而对于在线会议的听众而言,不能实时地掌握会议说话人的情况,影响用户体验和会议质量。
发明内容
为解决上述技术问题,提升说话人识别的准确度,本公开公开了如下技术方案:
第一方面,本公开实施例提供了一种音频片段的聚类方法,该方法包括如下步骤:获取第一音频片段对应的第一聚类结果,第一聚类结果中包括在第一音频片段内至少一个说话人的身份标识信息,和,与所述身份标识信息对应的时间戳信息;获取当前采样周期采集的第二音频片段,根据第一聚类结果解析所述第二音频片段得到第二聚类结果。
其中,第二音频片段与上一采样周期采集的所述第一音频片段均截取自相同的实时音频流,第二聚类结果中包括在第二音频片段内至少一个说话人的身份标识信息,和,与所述身份标识信息对应的时间戳信息。
本方面提供的方法,在音频流生成过程中,根据预设采样周期实时地获取当前音频片段,并与上一时刻记录的音频片段的第一聚类结果进行对齐,得到第二聚类结果,本方法实现了流式的说话人音频流的切分和聚类,并在线实时更新说话人信息,从而能实时地反映出不同说话人说话的情况,提高了说话人识别的精准度和用户体验。
结合第一方面,在第一方面的一种可能的实现方式中,当前采样周期小于所述第二音频片段,根据所述第一聚类结果解析所述第二音频片段得到第二聚类结果,包括:
根据当前采样周期小于所述第二音频片段,分别获取第一子片段和第二子片段,根据第一聚类结果,按照说话人说话时间最长原则对第一子片段进行聚类,得到第一子结果;以及,根据第一聚类结果,按照声纹特征匹配原则对第二子片段进行聚类,得到第二子结果。其中,第一子片段为第一音频片段与第二音频片段中时间重叠部分的音频流,第二子片段为第二音频片段中除去第一子片段后的剩余音频片段。
结合第一方面,在第一方面的另一种可能的实现方式中,根据所述第一聚类结果,按照说话人说话时间最长原则对所述第一子片段进行聚类,得到第一子结果,包括:利用所述匈牙利算法,根据第一聚类结果中每个说话人的说话时长和说话人对应的身份ID查找最优映射关系,得到第一子结果;其中,在最优映射关系下,聚类的音频部分的重叠时间最长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210828411.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于电脑端的图形用户界面系统
- 下一篇:一种视角可调液晶显示屏