[发明专利]语音处理方法、装置、电子设备和计算机可读介质有效
申请号: | 202010824772.2 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111968657B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 蔡猛 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/0272;G10L17/02;G10L15/04;G10L25/24 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 计算机 可读 介质 | ||
1.一种语音处理方法,包括:
将待处理语音分割成至少一个语音片段,其中,所述语音片段是同一声源的一段语音起始到语音结束的片段;
基于所述至少一个语音片段的聚类结果,生成至少一个第一语音,其中,所述第一语音包含同一声源的至少一个语音片段,所述至少一个第一语音中的每一个第一语音包括未混合语音和混合语音,未混合语音是只有一个人说话的语音或者同一声源发出的语音,混合语音是多个人同时说话的语音或者不同声源同时发出的语音;
对所述至少一个第一语音中的每个第一语音进行提特征提取,得到每个所述第一语音对应的声纹特征矢量;
基于所述声纹特征矢量生成第二语音,其中,所述第二语音是同一声源的未混合语音。
2.根据权利要求1所述的方法,其中,所述基于所述至少一个语音片段的聚类结果,生成至少一个第一语音,包括:
将所述至少一个语音片段的聚类结果中的每个语音片段簇中的语音片段拼接成初始第一语音,生成对应所述至少一个语音片段的至少一个初始第一语音。
3.根据权利要求2所述的方法,其中,所述基于所述至少一个语音片段的聚类结果,生成至少一个第一语音,包括:
对于至少一个初始第一语音中的每一个初始第一语音,对所述初始第一语音进行分帧,得到语音帧集合,将所述语音帧集合中语音帧的聚类结果中的每个语音帧簇中的语音帧拼接,生成所述至少一个第一语音。
4.根据权利要求1所述的方法,其中,所述第一语音对应的声纹特征矢量包括以下至少一项:未混合语音对应的声纹特征矢量,混合语音对应的声纹特征矢量。
5.根据权利要求4所述的方法,其中,所述基于所述声纹特征矢量生成第二语音,包括:
将所述声纹特征矢量输入至预先训练的时域音频分离网络,生成所述第二语音,其中,所述时域音频分离网络用于根据声纹特征矢量生成目标声源的未混合语音。
6.一种语音处理装置,包括:
分割单元,被配置成将待处理语音分割成至少一个语音片段,其中,所述语音片段是同一声源的一段语音起始到语音结束的片段;
第一生成单元,被配置成基于所述至少一个语音片段的聚类结果,生成至少一个第一语音,其中,所述第一语音包含同一声源的至少一个语音片段,所述至少一个第一语音中的每一个第一语音包括未混合语音和混合语音,未混合语音是只有一个人说话的语音或者同一声源发出的语音,混合语音是多个人同时说话的语音或者不同声源同时发出的语音;
特征提取单元,被配置成对所述至少一个第一语音中的每个第一语音进行提特征提取,得到每个所述第一语音对应的声纹特征矢量;
第二生成单元,被配置成基于所述声纹特征矢量生成第二语音,其中,所述第二语音是同一声源的未混合语音。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824772.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远视眼镜基片快速打磨成型设备
- 下一篇:一种设备布线图的绘制方法