[发明专利]一种基于人工智能的语音增强方法在审
申请号: | 202010551206.9 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111833893A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 王亚东 | 申请(专利权)人: | 杭州云嘉云计算有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L15/20 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 语音 增强 方法 | ||
1.一种基于人工智能的语音增强方法,其特征在于,包括以下步骤:
S1:训练数据预处理;提取音频数据的时域序列,对音频数据进行切片处理;
S2:模型训练和部署;建立GAN算法模型,根据音频数据模拟进行对抗式训练;将训练完成的GAN算法模型部署到机器的服务器中;
S3:模型测试;对测试数据中的带噪音频进行切片处理,在训练完成的GAN算法模型中进行数据除噪与音频重构,完成音频的语音增强;
S4:模型评估优化;采用多种方式对语音增强后的音频质量进行评估。
2.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述的GAN算法模型包括生成器G和判别器D;
生成器G模拟输入的真实音频数据分布的有效映射,生成与训练数据相关的新样本;
判别器D为二元分类器,判别器D的输入包括生成器G正在模拟的真实音频数据和生成器G模拟生成的新样本。
3.根据权利要求2所述的一种基于人工智能的语音增强方法,其特征在于,所述的对抗式训练为生成器G与判别器D的极大极小博弈,极大极小博弈的目标函数为:
其中,E()为损失函数;V()为目标函数;X为干净样本,X∈Pdata(X);Z为带噪样本,Z∈PZ(Z);为对生成器G损失函数进行最小化;为对判别器D损失函数进行最大化。
4.根据权利要求3所述的一种基于人工智能的语音增强方法,其特征在于,在所述的极大极小博弈的目标函数中增加约束条件变量,引导生成器G的生成过程和判别器D的判别过程,加入约束条件变量的目标函数为:
其中,y为约束条件变量。
5.根据权利要求2所述的一种基于人工智能的语音增强方法,其特征在于,所述的步骤S3包括以下步骤:
S31:测试数据预处理;对于测试数据中的带噪音频按照GAN算法模型的输入尺寸进行切片处理;
S32:数据去噪;将带噪音频切片输入训练完成的GAN算法模型,通过生成器G对其进行编码、解码,完成新样本的映射;
S33:音频重构;对于同一个带噪音频的切片,在全部经过生成器G的重构后,按原切分顺序进行拼接,得到和带噪音频采样点数一样的重构音频。
6.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,所述的训练完成的模型能够部署到机器的服务器中,或者通过移动介质进行移动。
7.根据权利要求1或6所述的一种基于人工智能的语音增强方法,其特征在于,对于所述训练完成的模型,根据部署环境的不同,利用部署环境的噪声数据对模型进行微调。
8.根据权利要求1或5所述的一种基于人工智能的语音增强方法,其特征在于,对于所述的训练数据中的音频数据运用滑动步长为16384*0.5,大小为16384*1的滑动窗口进行采样切片,不足部分补0;对于所述的测试数据中的带噪音频采用滑动步长为16384*1,大小为16384*1的滑动窗口进行采样切片,不足部分补0。
9.根据权利要求1所述的一种基于人工智能的语音增强方法,其特征在于,步骤S3中所述的多种方式包括语音识别引擎、人工听判和PESQ三种方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉云计算有限公司,未经杭州云嘉云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010551206.9/1.html,转载请声明来源钻瓜专利网。