[发明专利]音频转换方法及装置在审
申请号: | 201711020968.0 | 申请日: | 2017-10-25 |
公开(公告)号: | CN107818792A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 齐路;颜钊;张姗姗 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/24 |
代理公司: | 北京市立方律师事务所11330 | 代理人: | 刘延喜 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 转换 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别是涉及一种音频转换方法及装置。
背景技术
在日常的生活交流中,一个人的声音往往就是他的身份名片,听到自己熟悉人的声音后,就可辨认出这个人。在辨认人时,不只是通过该声音的音色,还有该声音的语调语速,不同的人在说同一句话,会有着不同的语调、语速。
声音转换是声音信号处理领域近年来新兴的研究分支,声音转换技术是指在保持语义内容不变的情况下,通过改变一个原说话人的语音个性特征,使他说的话被听者认为是目标说话人说的话,由于可以将一个发音人的声音转换为另一个发音人的声音,使人听起来像是另一个人的声音,有着广泛的应用前景,如用户可以将自己说话的声音转换成所喜欢明星的声音,或转换成用户自己熟悉人说话的声音。
对于现有技术中的语音转换处理,通常是经过调整原说话人的语速或语调,从而实现将原说话人的声音转换为目标说话人的声音,虽然经过上述转换处理之后,可以使转换后的语音与目标说话人的语速、语调相对匹配,但其转换得到的语音相比较于目标说话人的声音,还是存在一定的差异,无法实现相对完美的语音转换。
发明内容
本发明提供音频转换方法及装置,以实现对待转换音频信息的转换处理,提高对音频信息的转换精准度,进而提升以及丰富用户的使用体验感受。
本发明提供了一种音频转换方法,包括:
接收用户触发的音频转换请求,获取所述音频转换请求中携带的待转换音频信息和目标音频标识信息;
对所述待转换音频信息进行音素特征提取,得到待转换音素特征信息;
根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,得到所述目标音频信息。
优选地,所述根据预设的音频转换处理模块集合对所述待转换音素特征信息进行音频转换,将所述待转换音素特征信息转换为与所述目标音频标识信息对应的目标音频信息相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息;
并根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息。
优选地,所述根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
根据预设的音色转换处理模块对得到的待转换音素特征信息进行音色转换,将所述待转换音素特征信息转换为目标特征信息;
将所述目标特征信息与所述目标音频特征信息进行比对,确定二者匹配度;若匹配度大于预设阈值时,确定所述目标特征信息与所述目标音频特征信息匹配,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,还包括:
对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息;
其中,根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息,包括:
根据所述音频转换处理模块集合中的音色转换处理模块对所述待转换音素特征信息以及得到的待转换声学特征信息进行音色转换,得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。
优选地,所述对所述待转换音频信息进行声学特征提取,得到待转换声学特征信息,包括:
对所述待转换音频信息进行声学特征提取,得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息;
对所述MFCC特征信息进行分帧处理,得到各帧对应的MFCC特征信息。
优选地,所述根据所述音频转换处理模块集合中的节奏转换处理模块对所述待转换音素特征信息进行节奏转换,得到与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息,包括:
获取预先存储的对应于所述目标音频标识信息的目标音频信息,提取所述目标音频特征信息对应的目标音频特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711020968.0/2.html,转载请声明来源钻瓜专利网。