[发明专利]语音增强方法、装置、存储介质、电子设备有效

申请号：	201910631894.7	申请日：	2019-07-12
公开（公告）号：	CN110503940B	公开（公告）日：	2021-08-31
发明（设计）人：	许家铭;李晨星;徐波	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/04;G10L21/007;G10L21/02;G10L25/27
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孟德栋
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音增强方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音增强方法，其特征在于，所述方法包括：

调用语音采集设备，采集当前环境中的语音；

按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；

对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；

从所述语音分段数据流中提取短时傅里叶特征，包括：对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征；其中，对所述短时傅里叶特征求取绝对值，获得语音频谱；

将语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音，包括：预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息，其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，细化语音纹理特征，使恢复语音清晰；将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱；

将所述增强语音合成为语音段。

2.根据权利要求1所述的方法，其特征在于，所述按照预设的语音处理算法，对所述语音进行处理，得到单通道语音，包括：

将所述语音经过A/D转换，按照预设的采样率进行采样，得到单通道语音。

3.根据权利要求1所述的方法，其特征在于，所述将所述增强语音合成为语音段，包括：

将增强后的语音频谱结合带噪语音的相位，利用逆傅里叶变换恢复为语音采样点，并将所述语音采样点融合获得连续的语音数据流。

4.根据权利要求1所述的方法，其特征在于，所述对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流，包括：

对所述单通道语音中在预设阈值范围内的语音进行断句切分；

对于所述单通道语音中在预设阈值范围内的任意一帧语音，利用预先建立的神经网络模型检测是否包含预设类型声音；

如果该帧语音包含预设类型声音，则保留该帧语音；

如果该帧语音不包含预设类型声音，则过滤该帧语音；

组合所有包含预设类型声音的语音帧，得到包含预设类型声音的语音分段数据流。

5.一种语音增强装置，其特征在于，所述装置包括：

语音采集模块，用于调用语音采集设备，采集当前环境中的语音；

语音处理模块，用于按照预设的语音处理算法，对所述语音进行处理，得到单通道语音；

语音切分模块，用于对所述单通道语音进行断句切分，得到包含预设类型声音的语音分段数据流；

特征提取模块，用于从所述语音分段数据流中提取短时傅里叶特征，包括：对所述语音分段数据流进行短时傅里叶变换，获得短时傅里叶特征；其中，对所述短时傅里叶特征求取绝对值，获得语音频谱；

语音增强模块，用于将语音特征输入预设的语音增强网络模型中，得到与所述语音特征对应的增强语音，包括：预先构建基于自注意力机制的语音增强网络模型，捕捉长时依赖信息，并同时融合语音时间和频率域信息，其中，所述基于自注意力机制的语音增强网络模型额外增加边缘增强模块，细化语音纹理特征，使恢复语音清晰；将所述语音频谱输入基于自注意力机制的语音增强网络模型中，得到与所述语音频谱对应的增强语音频谱；

语音合成模块，用于将所述增强语音合成为语音段。

6.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的语音增强程序，以实现权利要求1～4中任一项所述的语音增强方法。

7.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～4中任一项所述的语音增强方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910631894.7/1.html，转载请声明来源钻瓜专利网。

上一篇：用于语音信号特征选择的方法
下一篇：语言能力评测方法、装置、系统、计算机设备及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音增强方法、装置、存储介质、电子设备有效

专利文献下载