[发明专利]实时变声方法及装置在审
申请号: | 201910091188.8 | 申请日: | 2019-01-30 |
公开(公告)号: | CN111508511A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 刘恺 | 申请(专利权)人: | 北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L15/02;G10L17/04;G10L13/08;G10L25/12;G10L25/18;G10L25/24;G10L25/30;G10L25/93 |
代理公司: | 北京华圣典睿知识产权代理有限公司 11510 | 代理人: | 赵景平 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 变声 方法 装置 | ||
本发明公开了一种实时变声方法及装置,所述方法包括:接收源说话人音频数据;从所述源说话人音频数据中提取语音识别声学特征,并利用所述语音识别声学特征得到语音识别的隐层特征;将所述隐层特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。利用本发明,可以实现低响应延迟的实时变声,并得到较好的变声效果。
技术领域
本发明涉及语音信号处理领域,具体涉及一种实时变声方法及装置。
背景技术
目前,随着语音合成技术的发展,如何使合成语音自然化、多样化、个性化成为当前语音技术研究的热点,而变声技术则是让合成语音多样化个性化的途径之一。变声技术主要是指保留语音信号的语义内容但改变说话人声音特性的技术,使某人的声音听起来像另外一个人的声音。变声技术从说话人转换的角度来说通常分为两种方式:一种是非特定人之间的语音转换,比如男声、女声之间的转换,不同年龄层次之间的转换等;另一种是特定人之间的语音转换,比如将说话人A的声音转换为说话人B的声音。
传统变声实现任意源说话人到目标发音人的音色转换的处理方法通常是基于语音识别技术,对平行语料使用DTW(Dynamic Time Warping,动态时间归整)或attention(注意力)机制等方式实现对齐,然后再进行音色转换。这种处理方式在转换模型训练时,需要收集源说话人和目标说话人的平行语料,即内容相同的音频语料,用对齐后的频谱特征训练转换模型;在进行音频转换时,对从源说话人的音频数据中提取的频谱特征通过转换模型进行转换,对基频特征采用线性拉伸处理,非周期成分不做任何变化。利用这种变声处理方式得到的变声效果不佳,而且无法满足一些有实时性需求的应用场景。
发明内容
本发明实施例提供一种实时变声方法及装置,以实现低响应延迟的实时变声,并得到较好的变声效果。
为此,本发明提供如下技术方案:
一种实时变声方法,所述方法包括:
接收源说话人音频数据;
从所述源说话人音频数据中提取语音识别声学特征,并利用所述语音识别声学特征得到语音识别的隐层特征;
将所述隐层特征输入预先构建的对应特定目标说话人的音色转换模型,得到特定目标说话人的语音合成声学特征;
利用所述特定目标说话人的语音合成声学特征生成特定目标说话人音频信号。
可选地,所述方法还包括按照以下方式构建所述对应特定目标说话人的音色转换模型:
收集特定目标说话人的音频数据;
利用所述特定目标说话人的音频数据对预先基于多个说话人的音频数据构建的通用变声模型进行自适应训练,得到对应所述特定目标说话人的音色转换模型。
可选地,所述方法还包括:基于多个说话人的音频数据构建通用变声模型,具体包括:
收集多个说话人的音频数据作为训练数据;
从所述训练数据中提取语音识别声学特征及语音合成声学特征,并利用所述语音识别声学特征得到语音识别的隐层特征;
利用所述隐层特征及所述语音合成声学特征,训练得到通用变声模型。
可选地,所述利用所述语音识别声学特征得到语音识别的隐层特征包括:
将所述语音识别声学特征输入语音识别模型,得到隐层特征。
可选地,所述语音识别模型为神经网络模型。
可选地,所述语音识别声学特征包括以下任意一项或多项:梅尔频率倒谱系数、感知线性预测参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司,未经北京搜狗科技发展有限公司;搜狗(杭州)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910091188.8/2.html,转载请声明来源钻瓜专利网。