[发明专利]一种音频风格转换方法和系统在审
申请号: | 202011206553.4 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112397077A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京中科深智科技有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L19/16;G10L25/18;G10L25/24;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市丰台区航*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 风格 转换 方法 系统 | ||
本发明公开了一种音频风格转换方法,包括如下内容:获取待转换风格的音频的内容;获取目标音频的风格;对内容和风格波形分别进行预处理,以分别获取内容信号和风格信号;通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息;通过优化算法将内容纹理统计信息和风格纹理统计信息合成,以获取合成音频并输出。本发明还公开了一种音频风格转换系统。本发明能够使得合成音频的音质自然、生动。
技术领域
本发明涉及音频信号处理技术领域,具体涉及一种音频风格转换方法和系统。
背景技术
目前,视觉技术领域中,在卷积神经网络(CNN)的推动下,图像之间的风格转换成为一个非常活跃的研究主题,并迅速成为社交媒体中一种非常流行的技术。而音频技术领域中,例如,专业音频编辑,音乐创作,声音设计和电影后期制作(包括配音),将音频的风格转换已成为迫切的需求。
发明内容
本发明的目的在于提供一种音频风格转换方法和系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种音频风格转换方法,其改进之处在于,包括如下内容:
获取待转换风格的音频的内容;
获取目标音频的风格;
对内容和风格波形分别进行预处理,以分别获取内容信号和风格信号;
通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息;
通过优化算法将内容纹理统计信息和风格纹理统计信息合成,以获取合成音频并输出。
本发明还提供了一种音频风格转换系统,其改进之处,包括:
内容获取模块,用于获取待转换风格的音频的内容;
风格获取模块,用于获取目标音频的风格;
处理模块,用于对内容和风格波形分别进行预处理,以分别获取内容信号和风格信号;
提取模块,用于通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息;
合成模块,用于通过优化算法将内容纹理统计信息和风格纹理统计信息合成,以获取合成音频并输出。
本发明通过声音纹理模型提取表征相关音频风格和内容的纹理统计信息,然后使用优化算法将内容纹理统计信息和风格纹理统计信息合成,是由目标内容而不是随机噪声初始化的,并且优化后的损失仅与纹理有关,而与结构无关,使得合成音频不是风格和内容的混合,而是格式化的内容,因此,使得合成音频的音质更自然、生动。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的音频风格转换方法的步骤图;
图2是本发明一实施例提供的音频风格转换系统的结构示意图
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司,未经北京中科深智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011206553.4/2.html,转载请声明来源钻瓜专利网。