[发明专利]语音处理方法、装置、电子设备和计算机可读介质有效
申请号: | 202010824772.2 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111968657B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 蔡猛 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/0272;G10L17/02;G10L15/04;G10L25/24 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 计算机 可读 介质 | ||
本公开的实施例公开了语音处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:将待处理语音分割成至少一个语音片段,其中,上述语音片段是同一声源的一段语音起始到语音结束的片段;基于上述至少一个语音片段的聚类结果,生成至少一个第一语音;以上过程可以对目标语音进行一定精度的语音分割,为以下生成第二语音奠定了基础。对上述至少一个第一语音中的每个第一语音进行提特征提取,得到每个上述第一语音对应的声纹特征矢量;基于上述声纹特征矢量生成第二语音,其中,第二语音是同一声源的未混合语音。通过对上述第一语音进行特征提取,以及对第一语音进一个语音分离,得到更准确的第二语音,从而提升整体语音分割效果。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及语音处理方法、装置、设备和计算机可读介质。
背景技术
目前,在语音分离过程中,往往需要在一段给定的语音中分离出目标语音。目前,相关的做法可以是采用分割聚类方法来从一段给定语音中,得到目标语音。然而,采用分割聚类方法所得到的目标语音准确率不高。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了语音处理方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题。
第一方面,本公开的一些实施例提供了一种语音处理方法,该方法包括:将待处理语音分割成至少一个语音片段,其中,上述语音片段是同一声源的一段语音起始到语音结束的片段;基于上述至少一个语音片段的聚类结果,生成至少一个第一语音,其中,上述第一语音包含同一声源的至少一个语音片段;对上述至少一个第一语音中的每个第一语音进行提特征提取,得到每个上述第一语音对应的声纹特征矢量;基于上述声纹特征矢量生成第二语音,其中,第二语音是同一声源的未混合语音。
第二方面,本公开的一些实施例提供了一种语音处理装置,装置包括:分割单元,被配置成将待处理语音分割成至少一个语音片段,其中,上述语音片段是同一声源的一段语音起始到语音结束的片段;第一生成单元,被配置成基于上述至少一个语音片段的聚类结果,生成至少一个第一语音,其中,上述第一语音包含同一声源的至少一个语音片段;特征提取单元,被配置成对上述至少一个第一语音中的每个第一语音进行提特征提取,得到每个上述第一语音对应的声纹特征矢量;第二生成单元,被配置成基于上述声纹特征矢量生成第二语音,其中,上述第二语音是同一声源的未混合语音。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,将待处理语音分割成至少一个语音片段,其中,上述语音片段是同一声源的一段语音起始到语音结束的片段;然后,基于上述至少一个语音片段的聚类结果,生成至少一个第一语音,其中,上述第一语音包含同一声源的至少一个语音片段;通过以上过程,可以对目标语音进行一定精度的语音分割,为以下生成第二语音奠定了基础。进一步,对上述至少一个第一语音中的每个第一语音进行提特征提取,得到每个上述第一语音对应的声纹特征矢量;基于上述声纹特征矢量生成第二语音,其中,第二语音是同一声源的未混合语音。通过对上述第一语音进行特征提取,以及对第一语音进一个语音分离,得到更准确的第二语音,从而提升整体语音分割效果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010824772.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远视眼镜基片快速打磨成型设备
- 下一篇:一种设备布线图的绘制方法