[发明专利]一种文语转换方法及装置在审
申请号: | 202010337691.X | 申请日: | 2020-04-26 |
公开(公告)号: | CN111508469A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 杜慷;陈孝良;冯大航 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/10;G10L17/02;G10L17/04;G10L17/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 江宁 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 转换 方法 装置 | ||
1.一种文语转换方法,其特征在于,所述方法包括:
采集当前用户的至少一段语音,并接收待转换文本;
采用声纹特征识别算法,对所述当前用户的至少一段语音进行声纹特征识别,得到所述当前用户的声纹特征;
以及,采用预设分析算法,对所述待转换文本的文本信息进行分析,得到所述待转换文本对应的文本序列信息;
基于所述声纹特征和所述文本序列信息得到合成语音。
2.如权利要求1所述的方法,其特征在于,基于所述声纹特征和所述文本序列信息得到合成语音,包括:
获取所述文本序列信息对应的具有所述声纹特征的声谱信息;
采用预设转换算法,将所述声谱信息转换为具有所述声纹特征的语音。
3.如权利要求1所述的方法,其特征在于,采用声纹特征识别算法,对所述当前用户的至少一段语音进行声纹特征识别,得到所述当前用户的声纹特征之前,所述方法还包括:
采集待训练用户中每个待训练用户的至少一段待训练语音;
获取所述每个待训练用户的至少一段待训练语音的待训练的声学特征;
采用预设声纹训练算法,对所述每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练,得到声纹识别模型。
4.如权利要求3所述的方法,其特征在于,所述预设声纹训练算法为神经网络ResNet-34算法。
5.如权利要求3所述的方法,其特征在于,采用声纹特征识别算法,对所述当前用户的至少一段语音进行声纹特征识别,得到所述当前用户的声纹特征,包括:
利用训练的声纹识别模型的声纹特征识别算法,对所述当前用户的至少一段语音进行声纹特征识别,得到所述当前用户的声纹特征。
6.如权利要求2所述的方法,其特征在于,所述文本序列信息包括所述文本信息对应的音素序列和所述音素序列对应的韵律特征;
获取所述文本序列信息对应的具有所述声纹特征的声谱信息,包括:
采用预设声学特征提取算法,获取所述音素序列对应的声学特征;
采用声谱合成算法,按照所述声纹特征,对所述音素序列对应的声学特征和所述韵律特征进行声谱合成,得到具有所述声纹特征的声谱信息。
7.一种文语转换装置,其特征在于,所述装置包括:获取单元、识别单元和分析单元;
所述获取单元,用于采集当前用户的至少一段语音,并接收待转换文本;
所述识别单元,用于采用声纹特征识别算法,对所述当前用户的至少一段语音进行声纹特征识别,得到所述当前用户的声纹特征;
所述分析单元,用于采用预设分析算法,对所述待转换文本的文本信息进行分析,得到所述待转换文本对应的文本序列信息;
所述获取单元,还用于基于所述声纹特征和所述文本序列信息得到合成语音。
8.如权利要求7所述的装置,其特征在于,所述装置还包括转换单元;
所述获取单元,还用于获取所述文本序列信息对应的具有所述声纹特征的声谱信息;
所述转换单元,用于采用预设转换算法,将所述声谱信息转换为具有所述声纹特征的语音。
9.如权利要求7所述的装置,其特征在于,所述装置还包括训练单元;
所述获取单元,还用于采集待训练用户中每个待训练用户的至少一段待训练语音;
以及,获取所述每个待训练用户的至少一段待训练语音的待训练的声学特征;
所述训练单元,用于采用预设声纹训练算法,对所述每个待训练用户的用户标识和相应待训练的声学特征进行声纹训练,得到声纹识别模型。
10.如权利要求9所述的装置,其特征在于,所述预设声纹训练算法为神经网络ResNet-34算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010337691.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物科技用溶液配制装置
- 下一篇:一种基于熔盐的固体废弃物连续热处理系统