[发明专利]说话人分离方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202111446569.7 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114121023A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘轶;黄石磊;程刚 | 申请(专利权)人: | 深港产学研基地(北京大学香港科技大学深圳研修院) |
主分类号: | G10L17/04 | 分类号: | G10L17/04 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 刘洁 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 说话 分离 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请涉及一种说话人分离方法,所述方法包括:获取待分离的语音信息,对待分离的语音信息进行初步分割,得到分离结果;对分离结果进行语音识别,得到分离语音内容,提取分离语音内容中的说话人转变点;提取分离结果的声纹特征和语义特征,并根据声纹特征和语义特征对分离结果进行说话人分类,得到标准分类结果;基于说话人转变点和标准分类结果对待分离的语音信息进行分类,得到目标分离结果。此外,本申请还涉及一种说话人分离方法、装置、设备及存储介质。本申请可解决说话人分离的准确度不够高的问题。
技术领域
本申请涉及语音处理领域,尤其涉及一种说话人分离方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,随着音频处理技术的不断提高,从海量的数据中,如电话录音、新闻广播、会议录音等,获取感兴趣的特定人声已成为研究热点。说话人分离技术是指从多人对话中自动地将语音依据说话人进行划分,并加以标记的过程,即解决的是“什么时候由谁说”的问题。
在说话人分离的过程当中,一般都是采用语音声学特征作为判决的依据,通过语音的音色信息来区分不同的说话人,然而当一段语音中两人的性别相同,音色接近的时候,往往容易导致分离错误。因此,采用语音声学特征进行说话人分离时的准确度不够高。
发明内容
本申请提供了一种说话人分离方法、装置、电子设备及存储介质,以解决说话人分离的准确度不够高的问题。
第一方面,本申请提供了一种说话人分离方法,所述方法包括:
获取待分离的语音信息,对所述待分离的语音信息进行初步分割,得到分离结果;
对所述分离结果进行语音识别,得到分离语音内容,提取所述分离语音内容中的说话人转变点;
提取所述分离结果的声纹特征和语义特征,并根据所述声纹特征和所述语义特征对所述分离结果进行说话人分类,得到标准分类结果;
基于所述说话人转变点和所述标准分类结果对所述待分离的语音信息进行分类,得到目标分离结果。
详细地,所述对所述待分离的语音信息进行初步分割,得到分离结果,包括:
利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段,并将剔除所述静音段后的语音信息按照时间顺序拼接为标准语音段;
提取所述标准语音段中的音频特征,并计算所述音频特征中相邻数据窗之间的相似度;
将所述相似度小于预设阈值的相邻数据窗判定为分割点,并基于所述分割点对所述待分离的语音信息进行划分,得到分离结果。
详细地,所述利用基于门限判决的静音检测算法识别所述待分离的语音信息中的静音段,包括:
对所述待分离的语音信息进行分帧处理,并计算每一帧语音信息对应的能量;
确定所述能量小于预设的能量门限的语音信息为静音段。
详细地,所述对所述分离结果进行语音识别之前,所述方法还包括:
获取多个训练语音信号样本及多个所述训练语音信号样本对应的语音特征块;
采用待训练的语音识别模型对多个所述训练语音信号样本对应的语音特征块分别进行识别,得到每个训练语音信号样本的预测文本序列;
根据每个训练语音信号样本对应的预测文本序列对待训练的语音识别模型进行训练,直至达到预设的收敛条件,生成语音识别模型;
所述对所述分离结果进行语音识别,包括:
利用所述语音识别模型对所述分离结果进行语音识别。
详细地,所述提取所述分离语音内容中的说话人转变点,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深港产学研基地(北京大学香港科技大学深圳研修院),未经深港产学研基地(北京大学香港科技大学深圳研修院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111446569.7/2.html,转载请声明来源钻瓜专利网。