[发明专利]音频处理方法及装置在审
申请号: | 202010758220.6 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111916093A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 庄晓滨 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L21/003 | 分类号: | G10L21/003;G10L21/007;G10L25/18;G10L25/24 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 | ||
本申请实施例公开了一种音频处理方法及装置,该方法包括:获取原始音频信号,并从原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;获取基频调整参数,根据基频调整参数对基频序列进行调整以生成目标基频序列;根据目标基频序列、频谱包络序列以及非周期参数序列确定线性频谱;将线性频谱转换为非线性频谱,并根据非线性频谱生成目标音频信号。采用本申请实施例,可提高音频合成信号的信号质量,适用性高。
技术领域
本申请涉及音频信号处理领域,尤其涉及一种音频处理方法及装置。
背景技术
随着人工智能技术的发展,语音方面的智能应用也越来越多。在影视配音行业,可将原演员的音色特征加入到本地化电影配音中,让配音更原汁原味。在卡拉OK等数字化娱乐行业,可以在保留音色的同时修改音高信息,实现修音。在医疗领域里,声音转换技术可以提升声道受损的病人的声音的可懂性。在军事国防领域里,语音转换技术可以在通信中对说话人语音进行伪装。在日常生活中,手机语音助手、问答机器人、电子读书和虚拟歌姬等都和音色音高相关。现有技术中,大多都是通过语音信号模型,来分离语音信号中的声源信息和声道信息,以提取特征参数的。其中,通过将这些特征参数进行转换,可合成新的音频合成信号。然而,根据现有技术所合成的音频合成信号的信号质量不高。
发明内容
本申请实施例提供一种音频处理方法及装置,可提高音频合成信号的信号质量,适用性高。
第一方面,本申请实施例提供了一种音频处理方法,该方法包括:
获取原始音频信号,并从所述原始音频信号中获取基频序列、频谱包络序列,以及非周期参数序列;
获取基频调整参数,根据所述基频调整参数对所述基频序列进行调整以生成目标基频序列;
根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱;
将所述线性频谱转换为非线性频谱,并根据所述非线性频谱生成目标音频信号。
结合第一方面,在一种可能的实施方式中,所述根据所述目标基频序列、所述频谱包络序列以及所述非周期参数序列确定线性频谱,包括:
基于所述目标基频序列、所述频谱包络序列以及所述非周期参数序列生成粗合成音频信号;
对所述粗合成音频信号进行分帧加窗处理,以得到组成所述粗合成音频信号的至少一个第一分帧信号;
对所述至少一个第一分帧信号中每个第一分帧信号进行短时傅里叶变换以得到每个第一分帧信号对应的子线性频谱;
将各子线性频谱进行拼接,以得到所述粗合成音频信号对应的线性频谱。
结合第一方面,在一种可能的实施方式中,所述从所述原始音频信号中获取基频序列,包括:
对所述原始音频信号进行分帧加窗处理,以得到组成所述原始音频信号的至少一个第二分帧信号;
针对第二分帧信号,采用多个截止频率的低通滤波器分别对所述第二分帧信号进行滤波,以得到所述第二分帧信号分别经所述多个截止频率的低通滤波器后得到的多个滤波信号;
根据每个滤波信号的周期信息确定每个滤波信号的截止频率的置信度;
从多个置信度中确定出最大置信度对应的截止频率作为所述第二分帧信号对应的基频;
将各第二分帧信号对应的基频进行拼接以得到基频序列。
结合第一方面,在一种可能的实施方式中,所述从所述原始音频信号中获取频谱包络序列,包括:
对所述至少一个第二分帧信号中每个第二分帧信号进行短时傅里叶变换以得到每个第二分帧信号对应的子线性频谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010758220.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微生物肥料生产用粉尘回收装置
- 下一篇:一种法律用自助咨询机