[发明专利]语音分离方法、装置、电子设备和可读存储介质在审
申请号: | 202110260475.4 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112634935A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 马路;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L17/08;G10L25/27 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100872 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种语音分离方法、装置、电子设备和可读存储介质,语音分离方法包括:获取待处理语音帧;生成待处理语音帧的第一特征向量;对第一特征向量作聚类处理以获得第一特征向量类别;提取每个第一特征向量类别对应的声纹特征;根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音。本申请提供了一种语音分离方法、装置、电子设备和可读存储介质,在保持语音分离数量灵活性的前提下,提高了语音分离的实时性。
技术领域
本申请涉及声学领域,尤其涉及一种语音分离方法、装置、电子设备和可读存储介质。
背景技术
在语音交互场景中,语音分离的好坏直接影响后端语音识别率和用户的听感体验,是语音技术的关键核心技术,采用深度聚类框架的神经网络只能在语音结束的最后时刻一次性恢复出所有的声源,虽然增加了分离声源数量的灵活性,但无法实时处理。
发明内容
为了解决上述技术问题中的至少一个,本申请提供了一种语音分离方法、装置、电子设备和可读存储介质。
本申请的第一方面,一种语音分离方法,包括:
获取待处理语音帧;
生成所述待处理语音帧的第一特征向量,所述第一特征向量包括所述待处理语音帧的每个时频点的特征向量;
对所述第一特征向量作聚类处理以获得第一特征向量类别;
提取每个所述第一特征向量类别对应的声纹特征;
根据相邻待处理语音帧的声纹特征相似度最高或者声纹特征距离最短的第一特征向量类别组合,输出通道分离后的语音。
可选的,所述生成所述待处理语音帧的第一特征向量,包括:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
对所述网络模型进行训练,包括:
获取至少两个说话人的第一时频域语音;
混合所述第一时频域语音,以获得第一混合语音;
根据所述第一时频域语音判断所述第一混合语音中每个时频点的说话人之间的能量的相对大小,以获得每个时频点的每个说话人的第一标签;
以所述第一混合语音和所述第一标签训练所述网络模型。
可选的,利用K均值聚类模型对所述第一特征向量作聚类处理以获得第一特征向量类别。
可选的,所述提取每个所述第一特征向量类别对应的声纹特征,包括:
确定所述待处理语音帧的每个第一特征向量类别对应的时频点掩码值;
根据所述待处理语音帧与相应时频点掩码值的乘积,以获得所述第一特征向量类别对应的语音;
将所述第一特征向量类别对应的语音输入预先训练的声纹特征提取模型,以获得第一特征向量类别对应的声纹特征。
可选的,对所述声纹特征提取模型进行训练,包括:
获取至少两个说话人的第二时频域语音;
根据将所述第二时频域语音输入到所述声纹特征提取模型后所得到的声纹特征,计算两两说话人之间的声纹特征相似度;
以相同说话人之间的声纹特征相似度最大以及不同说话人之间的声纹特征相似度最小为训练目标,训练所述声纹特征提取模型。
可选的,所述生成所述待处理语音帧的第一特征向量,包括:根据预先训练的网络模型生成所述待处理语音帧的第一特征向量;
在所述根据所述待处理语音帧生成第一特征向量之前,所述方法还包括:联合训练所述网络模型和所述声纹特征提取模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110260475.4/2.html,转载请声明来源钻瓜专利网。