[发明专利]一种语音编解码方法及装置有效
申请号: | 201711008611.0 | 申请日: | 2017-10-25 |
公开(公告)号: | CN109712632B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 袁豪磊 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 解码 方法 装置 | ||
本发明实施例公开了一种语音编码方法,包括:获取语音信号的基音频率;根据所述基音频率,确定所述语音信号的分析时间;根据所述分析时间以及所述基音频率计算所述时域补偿窗,并根据所述时域补偿窗,确定所述语音信号的时域平滑谱;根据所述时域补偿窗、预设的三角窗以及所述基音频率,计算频域补偿窗;根据所述时域平滑谱、所述预设的三角窗以及所述频域补偿窗,确定所述语音信号的频域平滑谱。本发明实施例还公开了一种语音解码方法及相关设备。采用本发明实施例,可以提高合成语音的音质。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音编解码方法及装置。
背景技术
语音合成(Text To Speech,TTS)是一种将文字信息转换为语音输出的技术。目前使用最广泛的TTS方案是基于声码器的参数语音合成,将预测出的声学参数转换成语音。早期的TTS合成方法依赖于开发人员针对特定语言手工设计合成规则,随着技术的发展,对具有文本-语音对照信息的多媒体数据变得越来越容易获得,使得利用大量的文本-音频对照信息(“语料库”)作为训练数据来实现TTS成为可能。现代TTS系统就是利用大量的语料库数据结合机器学习方法来实现语音的合成,通过开发一套算法使其能从真实数据(语料库)中找出从文字到声音的内在映射关系,当输入新的文本时,根据学习到的映射关系将文字转换为语音,从而避免了对手工规则设计的依赖。
随着技术的不断进步和语料数据的不断增加,参数语音合成TTS系统主要使用深度神经网络对声学进行建模,声学模型的准确性和泛化能力大幅提高,影响TTS合成音质的主要因素,不再是模型训练环节造成的音质损失,而是声码器的编解码的好坏。
在现有技术方案中,一般将语音波形分解为频率和频谱的信号特征,然后将频率和频谱输出到声学模型进行建模。由于语音是一种时间连续信号,一般需要将语音按时间进行切片(分帧),然后将切片后的语音输入到声码器进行编码,得到基音频率和频谱。其中,分帧的固定帧长一般为5ms~30ms之间。但是,固定分帧的方式会导致合成语音的音质明显下降。
发明内容
本发明实施例提供一种语音编解码方法及装置。可以解决合成语音的音质较差的问题。
本发明第一方面提供了一种语音编码方法,包括:
获取语音信号的基音频率;
根据所述基音频率,确定所述语音信号的分析时间;
根据所述分析时间以及所述基音频率计算所述时域补偿窗,并根据所述时域补偿窗,确定所述语音信号的时域平滑谱;
根据所述时域补偿窗、预设的三角窗以及所述基音频率,计算频域补偿窗;
根据所述时域平滑谱、所述预设的三角窗以及所述频域补偿窗,确定所述语音信号的频域平滑谱。
其中,所述根据所述时域补偿窗,确定所述语音信号的时域平滑谱包括:
将所述语音信号乘以所述时域补偿窗,计算加窗后的所述语音信号;
对加窗后的所述语音信号进行傅里叶变换;
计算经过所述傅里叶变换后的所述加窗后的所述语音信号的模的平方,得到所述语音信号的时域平滑谱。
其中,所述根据所述基音频率,确定所述语音信号的分析时间包括:
根据所述基音频率,计算分析窗口的时长;
取N个所述分析窗口的时长之和作为所述语音信号的所述分析时间。
其中,所述根据所述时域补偿窗、预设的三角窗以及所述基音频率,计算频域补偿窗包括:
计算所述时域补偿窗与所述预设的三角窗的卷积,得到窗函数;
基于所述窗函数建立分析矩阵,并根据所述分析矩阵确定分析向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司,未经腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711008611.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频数据传输控制方法、装置、系统及可读存储介质
- 下一篇:音频编码器和解码器