[发明专利]一种基于深度神经网络模型的情感合成方法有效

申请号：	201611201686.6	申请日：	2016-12-23
公开（公告）号：	CN106531150B	公开（公告）日：	2020-02-07
发明（设计）人：	王鸣	申请（专利权）人：	云知声(上海)智能科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08
代理公司：	31229 上海唯源专利代理有限公司	代理人：	曾耀先
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于深度神经网络模型的情感合成方法，包括步骤：获取第一发音人的中立声学特征数据和情感声学特征数据；利用深度神经网络模型建立第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；利用深度神经网络模型将第二发音人的中立语音合成模型与情感转换模型串联，得到第二发音人的情感语音合成模型。本发明基于一个发音人的情感模型即可获得其他任何人的情感模型，利用一个发音人的中立和情感的转换关系模型即可实现，具有数据量少，构件情感模型速度快，成本低等优势。
搜索关键词：	一种基于深度神经网络模型情感合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度神经网络模型的情感合成方法，其特征在于，包括步骤：/n获取第一发音人的中立声学特征数据和情感声学特征数据；/n利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；/n获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；以及/n利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联，得到所述第二发音人的情感语音合成模型；/n其中，通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据，包括：/n获取第一发音人的中立语音数据和情感语音数据；/n利用所述第一发音人的中立语音数据进行深度神经网络模型训练，得到所述第一发音人的中立语音合成模型；/n利用所述第一发音人的情感语音数据进行深度神经网络模型训练，得到所述第一发音人的情感语音合成模型；/n提供一定数量的语句文本，将所述语句文本分别输入到所述第一发音人的中立语音合成模型和情感语音合成模型，获得对应的所述第一发音人的中立声学特征数据和情感声学特征数据；/n通过以下方法利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型，包括：/n以第一发音人的中立声学特征数据作为深度神经网络模型的输入数据；/n以第一发音人的情感声学特征数据作为深度神经网络模型的输出数据；/n训练所述深度神经网络模型，得到第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；/n进一步地，通过以下方法训练所述深度神经网络模型，得到第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型，包括：/n利用深度神经网络模型中的神经网络构建回归模型，隐层使用S型生长曲线激励函数，输出层使用线性激励函数；/n以随机化网络参数作为初始参数，基于公式1的最小均方差准则进行模型训练；/nL(y,z)＝||y-z||

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云知声(上海)智能科技有限公司，未经云知声(上海)智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611201686.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度神经网络模型的情感合成方法有效

专利文献下载