[发明专利]语音处理方法、装置、设备及存储介质在审
申请号: | 202210524046.8 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114882866A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 梁芸铭;张辉;原湉;陈泽裕;黄一鸣 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L15/02;G10L15/06 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 金爱静;王姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 设备 存储 介质 | ||
本公开提供了语音处理方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及语音技术领域。具体实现方案为:基于声学模型中流式声学处理模块的参数特征,得到声学处理填充块;在第i个待声学处理数据块中添加所述声学处理填充块,得到第i个目标声学处理数据块;其中,所述第i个待声学处理数据块是将待处理数据进行切片处理成n个待声学处理数据块后所得;所述i为不大于n的自然数,所述n为不小于2的自然数;将所述第i个目标声学处理数据块输入至所述声学模型中的所述流式声学处理模块进行流式声学处理,得到第i个流式声学处理结果。
技术领域
本公开涉及数据处理技术领域,尤其涉及人工智能、语音技术领域。
背景技术
流式语音合成(Text-to-Speech,TTS)也称为在线语音合成,主要用于优化语音合成首包返回时延;具体来说,流式语音合成可以一段一段流式的生成合成音频,并边合成边播放,因此,相比一次性生成整条音频(也即非流式语音合成)而言,可大幅度降低首包响应时间。但是,现有流式语音合成方案中仅部分地支持流式处理,因此,依然存在首包响应时间过长的问题。
发明内容
本公开提供了一种语音处理方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种语音处理方法,包括:
基于声学模型中流式声学处理模块的参数特征,得到声学处理填充块;
在第i个待声学处理数据块中添加所述声学处理填充块,得到第i个目标声学处理数据块;其中,所述第i个待声学处理数据块是将待处理数据进行切片处理成n个待声学处理数据块后所得;所述i为不大于n的自然数,所述n为不小于2的自然数;
将所述第i个目标声学处理数据块输入至所述声学模型中的所述流式声学处理模块进行流式声学处理,得到第i个流式声学处理结果。
根据本公开的另一方面,提供了一种语音处理装置,包括:
参数特征处理单元,用于基于声学模型中流式声学处理模块的参数特征,得到声学处理填充块;
数据预处理单元,用于在第i个待声学处理数据块中添加所述声学处理填充块,得到第i个目标声学处理数据块;其中,所述第i个待声学处理数据块是将待处理数据进行切片处理成n个待声学处理数据块后所得;所述i为不大于n的自然数,所述n为不小于2的自然数;
语音合成单元,用于将所述第i个目标声学处理数据块输入至所述声学模型中的所述流式声学处理模块进行流式声学处理,得到第i个流式声学处理结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
这样,能够进行流式声学处理,提升了语音处理效率,降低了音频响应时长。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210524046.8/2.html,转载请声明来源钻瓜专利网。