[发明专利]语音处理系统和方法在审
申请号: | 201810145526.7 | 申请日: | 2014-08-22 |
公开(公告)号: | CN108364639A | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 陈浪舟 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/07;G10L15/14 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 李峥;刘薇 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 语音数据 声学模型 聚簇 文本转语音系统 接收语音数据 语音处理系统 语音数据项 最大似然性 参数估计 参数集 聚类 联合 | ||
一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
本申请是申请号为201410419320.0的中国专利申请“语音处理系统和方法”(申请日为2014年8月22日)的分案申请。
技术领域
此处一般描述的本发明实施例涉及文本转语音系统和方法。
背景技术
文本转语音系统是响应于接收到文本文件而输出音频语音或音频语音文件的系统。
文本转语音系统广泛用于多种应用,例如电子游戏、电子图书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动报警系统。
不断需要使系统被听起来更像人类声音。
附图说明
现在将参考附图描述根据非限制性实施例的系统和方法,其中:
图1是根据实施例用于训练声学模型的框架;
图2是示出根据实施例用于训练语音处理系统的方法的流程图;
图3是示出参考图2描述的一个步骤的流程图;
图4是示出参考图2描述的另一步骤的流程图;
图5是示出根据实施例训练语音处理系统的方法的流程图;
图6是示出根据实施例训练语音处理系统的方法的流程图;
图7是示出根据实施例训练语音处理系统的方法的流程图;
图8是示出参考图7描述的一个步骤的流程图;
图9是根据实施例的语音处理方法的流程图;
图10是示出如何选择声音特性的系统的示意图;
图11是图10中的系统上的变形;
图12是示出根据实施例的系统自适应的流程图;
图13是示出根据进一步的实施例的系统自适应的流程图;
图14是示出适合于系统自适应的各种数据类型的收集的示意图;
图15是示出如何在不同说话者之间移植表达的绘图;
图16是示出表达语音移植的声学空间图;
图17是示出使用自适应数据的表达移植的方法的示意图;
图18是用于提取表达合成向量的系统的示意图,是系统中的表达导出部分的示意图;
图19是用于使用不同级别的知识信息提取表达特征的系统的示意图;
图20是用于使用级联神经网络提取表达特征以建立不同知识级别模型的系统的示意图;
图21是系统中表达导出部分的示意图;
图22是文本转语音系统的示意图;
图23是示出语音处理系统执行的步骤的流程图;
图24是高斯概率函数的示意图;
图25是可被训练的文本转语音系统的示意图;以及
图26是特定实施例使用的决策树的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810145526.7/2.html,转载请声明来源钻瓜专利网。