首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种音频风格转换方法和系统在审

申请号：	202011206553.4	申请日：	2020-11-03
公开（公告）号：	CN112397077A	公开（公告）日：	2021-02-23
发明（设计）人：	不公告发明人	申请（专利权）人：	北京中科深智科技有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G10L19/16;G10L25/18;G10L25/24;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	100000 北京市丰台区航***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频风格转换方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频风格转换方法，包括如下内容：获取待转换风格的音频的内容；获取目标音频的风格；对内容和风格波形分别进行预处理，以分别获取内容信号和风格信号；通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息；通过优化算法将内容纹理统计信息和风格纹理统计信息合成，以获取合成音频并输出。本发明还公开了一种音频风格转换系统。本发明能够使得合成音频的音质自然、生动。

技术领域

本发明涉及音频信号处理技术领域，具体涉及一种音频风格转换方法和系统。

背景技术

目前，视觉技术领域中，在卷积神经网络(CNN)的推动下，图像之间的风格转换成为一个非常活跃的研究主题，并迅速成为社交媒体中一种非常流行的技术。而音频技术领域中，例如，专业音频编辑，音乐创作，声音设计和电影后期制作(包括配音)，将音频的风格转换已成为迫切的需求。

发明内容

本发明的目的在于提供一种音频风格转换方法和系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种音频风格转换方法，其改进之处在于，包括如下内容：

获取待转换风格的音频的内容；

获取目标音频的风格；

对内容和风格波形分别进行预处理，以分别获取内容信号和风格信号；

通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息；

通过优化算法将内容纹理统计信息和风格纹理统计信息合成，以获取合成音频并输出。

本发明还提供了一种音频风格转换系统，其改进之处，包括：

内容获取模块，用于获取待转换风格的音频的内容；

风格获取模块，用于获取目标音频的风格；

处理模块，用于对内容和风格波形分别进行预处理，以分别获取内容信号和风格信号；

提取模块，用于通过声音纹理模型分别提取内容信号和风格信号的纹理统计信息；

合成模块，用于通过优化算法将内容纹理统计信息和风格纹理统计信息合成，以获取合成音频并输出。

本发明通过声音纹理模型提取表征相关音频风格和内容的纹理统计信息，然后使用优化算法将内容纹理统计信息和风格纹理统计信息合成，是由目标内容而不是随机噪声初始化的，并且优化后的损失仅与纹理有关，而与结构无关，使得合成音频不是风格和内容的混合，而是格式化的内容，因此，使得合成音频的音质更自然、生动。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的音频风格转换方法的步骤图；

图2是本发明一实施例提供的音频风格转换系统的结构示意图

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司，未经北京中科深智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011206553.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于四面两维相控阵的雷达数据处理系统
下一篇：基于三丝交叉摆动电弧传感的中厚板折线焊缝跟踪方法

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top