[发明专利]声音合成装置及声音合成方法有效

申请号：	201780040606.X	申请日：	2017-06-28
公开（公告）号：	CN109416911B	公开（公告）日：	2023-07-21
发明（设计）人：	久凑裕司;大道龙之介;才野庆二郎;若尔迪·博纳达;梅利因·布洛乌	申请（专利权）人：	雅马哈株式会社
主分类号：	G10L13/06	分类号：	G10L13/06;G10L13/07;G10L13/08;G10L13/10
代理公司：	北京天昊联合知识产权代理有限公司 11112	代理人：	何立波;张天舒
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音合成装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

声音合成方法具有：取得步骤，依次取得与声音的合成指示对应的多个声音片段；生成步骤，通过统计模型生成与合成指示对应的统计频谱包络；以及合成步骤，将依次取得的多个声音片段相互连接，并且，与生成的统计频谱包络对应地对各声音片段的频谱包络进行变更，基于具有变更后的频谱的连接后的声音片段，对声音信号进行合成。

技术领域

本发明涉及对声音进行合成的技术。

背景技术

当前，提出了对任意音位(发音内容)的声音进行合成的声音合成的技术。例如在专利文献1中，公开了一种通过将多个声音片段中的与目标音位对应地选择出的声音片段相互连接而生成合成声音的片段连接型的声音合成。另外，在专利文献2中，公开了如下统计模型型的声音合成，即，通过利用HMM(Hidden Markov Model)生成表现声道特性的频谱参数的系列，通过与频谱参数对应的频率特性的合成滤波器对激励信号进行处理，由此生成合成声音。

专利文献1：日本特开2007-240564号公报

专利文献2：日本特开2002-268660号公报

发明内容

另外，不仅要求合成标准的发音特质的声音，还要求合成例如发音较强的声音或者发音平稳的声音等多种发音特质的声音。在片段连接型的声音合成中，为了合成多种发音特质的声音，需要针对每个发音特质而个别地准备多个声音片段的集合(声音合成用库)。因此，为了保存声音片段而需要充分的存储容量。另一方面，在统计模型型的声音合成中利用统计模型推定的频谱是在学习过程中将多个频谱平均得出的频谱，与片段连接型的声音片段相比，时间分辨率及频率分辨率低。因此，高品质的合成声音的生成是困难的。考虑到上面的情况，本发明的目的在于削减声音合成所需要的存储容量，并生成期望的发音特质的高品质的合成声音。

为了解决上面的课题，本发明优选的方式涉及的声音合成方法具有：取得步骤，依次取得与声音的合成指示对应的多个声音片段；生成步骤，通过统计模型生成与所述合成指示对应的统计频谱包络；以及合成步骤，将所述依次取得的多个声音片段相互连接，并且，与所述生成的统计频谱包络对应地对各声音片段的频谱包络进行变更，基于具有所述变更后的频谱的所述连接后的声音片段，对声音信号进行合成。

本发明优选的方式涉及的声音合成装置具有：片段取得部，其依次取得与声音的合成指示对应的多个声音片段；包络生成部，其通过统计模型生成与所述合成指示对应的统计频谱包络；以及声音合成部，其将所述依次取得的多个声音片段相互连接，并且，与所述生成的统计频谱包络对应地对所述各声音片段的频谱包络进行变更，基于具有所述变更后的频谱的所述连接后的声音片段，对声音信号进行合成。

附图说明

图1是第1实施方式中的声音合成装置的框图。

图2是声音合成装置的动作的说明图。

图3是声音合成装置的功能性框图。

图4是特性调整处理的流程图。

图5是声音合成处理的流程图。

图6是第2实施方式中的声音合成装置的功能性框图。

图7是变形例中的声音合成部的框图。

图8是变形例中的声音合成部的框图。

具体实施方式

第1实施方式

图1是本发明的第1实施方式涉及的声音合成装置100的框图。