[发明专利]信息处理方法及信息处理系统在审
申请号: | 201980072848.6 | 申请日: | 2019-11-06 |
公开(公告)号: | CN112970058A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 大道龙之介;梅利因·布洛乌;若尔迪·博纳达 | 申请(专利权)人: | 雅马哈株式会社 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/033;G10L13/047 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 何立波;张天舒 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 系统 | ||
信息处理系统具有合成处理部,该合成处理部将表示歌唱者的歌唱者数据、表示歌唱风格的风格数据和表示歌唱条件的合成数据输入至通过机器学习而生成的合成模型,由此基于该发音风格及发音条件而生成表示应该由歌唱者发音的目标音的音响特征的特征数据。
技术领域
本发明涉及对语音等音响进行合成的技术。
背景技术
以往提出了对任意音位的语音进行合成的语音合成技术。例如在专利文献1中公开了片段连接型的语音合成技术,其通过将多个语音片段之中的与目标的音位相应地选择出的语音片段相互地连接,从而生成音(以下称为“目标音”)。
专利文献1:日本特开2007-240564号公报
发明内容
近年的语音合成技术中,要求对由多样的发声者通过多样的发音风格发音的目标音进行合成。但是,为了通过片段连接型的语音合成技术应对以上的要求,需要针对发声者和发音风格的每个组合而单独地准备多个语音片段的集合。因此,存在为了准备语音片段而需要过大的工作量这样的问题。考虑以上的情况,本发明的一个方式的目的在于,不需要语音片段,生成使发音源(例如发声者)和发音风格的组合存在差异的多样的目标音。
为了解决以上的课题,本发明的一个方式所涉及的信息处理方法将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
本发明的一个方式所涉及的信息处理系统具有合成处理部,该合成处理部将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。
本发明的一个方式所涉及的信息处理系统具有大于或等于1个处理器和大于或等于1个存储器,通过执行在所述大于或等于1个存储器中存储的程序,所述大于或等于1个处理器将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的音响的音响特征的特征数据。
附图说明
图1是例示实施方式所涉及的信息处理系统的结构的框图。
图2是例示信息处理系统的功能结构的框图。
图3是例示合成处理的具体顺序的流程图。
图4是学习处理的说明图。
图5的例示学习处理的具体顺序的流程图。
图6是补充处理的说明图。
图7是例示补充处理的具体顺序的流程图。
图8是例示第2实施方式中的合成模型的结构的框图。
图9是例示第3实施方式中的合成模型的结构的框图。
图10是变形例中的合成处理的说明图。
具体实施方式
<第1实施方式>
图1是例示第1实施方式所涉及的信息处理系统100的结构的框图。信息处理系统100是对由特定的歌唱者通过特定的歌唱风格虚拟地歌唱乐曲而发出的语音(以下称为“目标音”)进行生成的语音合成装置。歌唱风格(发音风格的例示)是指与例如歌唱方式相关的特征。例如与说唱(rap)、RB(rhythm and blues)或者朋克(punk)等各种音乐类型的乐曲相适合的歌唱方式是歌唱风格的具体例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980072848.6/2.html,转载请声明来源钻瓜专利网。