[发明专利]语音处理方法和装置在审
申请号: | 202011220024.X | 申请日: | 2020-11-05 |
公开(公告)号: | CN112331219A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 张晴晴;何淑琳;贾艳明;张雪璐 | 申请(专利权)人: | 北京爱数智慧科技有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L15/02;G10L15/14;G10L13/02;G10L19/26;G10L25/24 |
代理公司: | 北京智沃律师事务所 11620 | 代理人: | 梁晨 |
地址: | 100044 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 | ||
1.一种说话人识别技术中语音处理方法,其特征在于,包括:
获取第一语音以及与所述第一语音对应的标注文本;
获取所述第一语音的音素对齐序列;
根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
2.根据权利要求1所述的语音处理方法,其特征在于,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
3.根据权利要求1所述的语音处理方法,其特征在于,所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
4.根据权利要求1所述的语音处理方法,其特征在于,在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
对所述音素单元的拼接部位的波形进行加窗处理。
5.根据权利要求1所述的语音处理方法,其特征在于,在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
6.一种说话人识别技术中语音处理装置,其特征在于,包括:
第一获取模块,用于获取第一语音以及与所述第一语音对应的标注文本;
第二获取模块,用于获取所述第一语音的音素对齐序列;
第三获取模块,用于根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
重组模块,用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
拼接模块,用于对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
合并模块,用于对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
7.根据权利要求6所述的语音处理装置,其特征在于,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
8.根据权利要求6所述的语音处理装置,其特征在于,所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
9.根据权利要求6所述的语音处理装置,其特征在于,还包括:
加窗模块,用于对所述音素单元的拼接部位的波形进行加窗处理。
10.根据权利要求6所述的语音处理装置,其特征在于,还包括:
滤波模块,用于将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱数智慧科技有限公司,未经北京爱数智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011220024.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种救生消防用安全帽
- 下一篇:意图识别的方法、装置、对话方法和系统