[发明专利]一种远场语音生成方法、装置、电子设备及存储介质在审
申请号: | 202211141695.6 | 申请日: | 2022-09-20 |
公开(公告)号: | CN116564283A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张超;王乐;滕勇;丁希剑;李健 | 申请(专利权)人: | 小沃科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L25/51 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孔凡红 |
地址: | 200082 上海市杨浦区大*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 生成 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种远场语音生成方法、装置、电子设备及存储介质。该方法包括:确定待处理语音数据,并确定所述待处理语音数据的数据标签;所述待处理语音数据包括待处理近场语音数据以及待处理远场语音数据;将所述待处理语音数据输入至预设远场语音生成模型中,根据预设远场语音生成模型中的远场语音判别结果对所述预设远场语音生成模型进行训练,得到目标远场语音生成模型;采用所述目标远场语音生成模型将近场语音转换为目标远场语音数据标签对应的远场语音。采用本发明实施例的技术方案,避免通过设备采集大量的待处理语音数据,造成财力以及物力的浪费;并且可以将任何近场语音数据转化为任意远场语音数据,丰富远程语音数据。
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种远场语音生成方法、装置、电子设备及存储介质。
背景技术
现有的人工智能技术,尤其是语音领域基于深度学习的各种算法依赖于多种多样的大数据,对于语音领域来说,大部分数据均是近场采集得到。对于部分算法,比如ASR以及声纹识别等,如果使用近场数据训练得到的模型去识别远场语音,识别效果会大幅下降。针对这一情况的一般做法是使用设备在算法适用场景下采集远场语音并加入训练数据,然而并不是所有场景都适用,且单独进行数据采集成本过大,不具备通用性。
因此,如何有效生成远场语音是本领域技术人员亟待解决的技术问题。
发明内容
本发明实施例提供一种远场语音生成方法、装置、电子设备及存储介质,以实现将任意近场语音转换为远场语音,丰富远场语音数据。
第一方面,本发明实施例提供了一种远场语音生成方法,包括:
确定待处理语音数据,并确定所述待处理语音数据的数据标签;所述待处理语音数据包括待处理近场语音数据以及待处理远场语音数据;
将所述待处理语音数据输入至预设远场语音生成模型中,根据预设远场语音生成模型中的远场语音判别结果对所述预设远场语音生成模型进行训练,得到目标远场语音生成模型;
采用所述目标远场语音生成模型将近场语音转换为目标远场语音数据标签对应的远场语音。
第二方面,本发明实施例还提供了一种远场语音生成装置,包括:
待处理语音数据确定模块,用于确定待处理语音数据,并确定所述待处理语音数据的数据标签;所述待处理语音数据包括待处理近场语音数据以及待处理远场语音数据;
目标远场语音生成模型训练模块,用于将所述待处理语音数据输入至预设远场语音生成模型中,根据预设远场语音生成模型中的远场语音判别结果对所述预设远场语音生成模型进行训练,得到目标远场语音生成模型;
远场语音生成模块,用于采用所述目标远场语音生成模型将近场语音转换为目标远场语音数据标签对应的远场语音。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的远场语音生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的远场语音生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小沃科技有限公司,未经小沃科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211141695.6/2.html,转载请声明来源钻瓜专利网。