[发明专利]语音合成设备有效
申请号: | 201210175478.9 | 申请日: | 2012-05-30 |
公开(公告)号: | CN102810309A | 公开(公告)日: | 2012-12-05 |
发明(设计)人: | 若尔迪·博纳达;梅利因·布洛乌;橘诚 | 申请(专利权)人: | 雅马哈株式会社 |
主分类号: | G10L13/04 | 分类号: | G10L13/04 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;张天舒 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 设备 | ||
技术领域
本发明涉及一种用于将多个音素段互连以合成一个诸如谈话语
音或歌唱语音之类的语音的技术。
背景技术
已经提出了一种音素段连接类型的语音合成技术,用于互连表示音素段的多个音素段以合成期望的语音。对于具有期望音高(声音的高度)的语音而言,优选地是使用以该音高发音的音素段的音素段数据来进行合成;然而实际上很难关于所有的音高水平准备音素段数据。为此,日本专利申请公开第2010-169889号公开了这样一种结构,其中关于几个代表性音高来准备音素段数据,并且将音高最接近目标音高的一段音素段数据调整为目标音高以合成语音。例如,假设关于图12所示的音高E3和音高G3来准备音素段数据,通过提升音高E3的音素段数据的音高来产生音高F3的音素段数据,并且通过降低音高G3的音素段数据的音高来产生音高F#3的音素段数据。
然而,在日本专利申请公开第2010-169889号中所描述的调整原始音素段数据以产生具有目标音高的新的音素段数据的结构中出现了这样的问题,即具有彼此相邻音高的合成声音的音色互不相似,因此这样的合成声音不自然。例如,音高F3的合成声音与音高F#3的合成声音彼此相邻,并且自然的是这两个合成声音的音色应当互相类似。然而,构成音高F3基础的原始音素段数据(音高E3)与构成音高F#3基础的原始音素段数据(音高G3)是分别发音并被记录的,结果是音高F3的合成声音的音色与音高F#3的合成声音的音色可能不自然地互不相似。特别是在音高F3的合成声音与音高F#3的合成声音是连续产生的情况下,听众会在这两个合成声音间的交界处的转变时间点察觉到音色的突然变化。
同时,尽管以上描述的是音素段数据音高的调整,但是连诸如音量之类的其他声音特性的调整的情况下也都会发生相同的问题。本发明正是考虑了上述问题而作出的,本发明的目的是使用现存音素段数据来产生诸如音高之类的声音特性不同于现存音素段数据的声音特性的合成声音,从而使得合成声音具有自然的音色。
发明内容
将要描述的是为了解决上述问题而在本发明中所采用的手段。同时,在以下描述中,为了便于理解本发明,在括号中示出了与本发明各组件对应的下述实施例中的组件;然而本发明的范围并不限于所述实施例。
根据本发明第一方面的语音合成设备包括:音素段内插部分(例如,音素段内插部分24),其获取一个音素段的第一音素段数据(例如音素段数据V1)以及该音素段的第二音素段数据(例如音素段数据V2),所述第一音素段数据包括多个帧的序列并且对应于声音特性(例如,音高)的第一值,所述第二音素段数据包括多个帧的序列并且对应于与所述声音特性的第一值不同的该声音特性的第二值,所述第一音素段数据和所述第二音素段数据表示了所述音素段的每个帧的频谱,并且该音素段内插部分在第一音素段数据的每个帧和与第一音素段数据的每个帧相对应的第二音素段数据的每个帧之间进行内插,从而产生所述音素段的对应于声音特性的目标值(例如,目标音高Pt)的音素段数据,其中所述目标值不同于所述声音特性的第一值和第二值;以及语音合成部分(例如,语音合成部分26),其根据由音素段内插部分所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。
在上述结构中,其声音特性的值彼此不同的多个音素段数据被执行内插,从而产生目标值的音素段数据,因此与根据单段音素段数据来产生目标值的音素段数据的结构相比,本发明可以产生具有自然音色的合成音。
在本发明的优选形式中,音素段内插部分能够选择性地执行第一内插处理或第二内插处理。第一内插处理以与声音特性的目标值对应的内插率(例如,内插率α)来在第一音素段数据(例如,音素段数据V1)的帧的频谱和第二音素段数据(例如,音素段数据V2)的对应帧的频谱之间进行内插,从而产生目标值的音素段数据。第二内插处理以与声音特性的目标值对应的内插率来在第一音素段数据的帧的音量(例如,音量E)和第二音素段数据的对应帧的音量之间进行内插,并且根据内插后的音量来对第一音素段数据的帧的频谱进行校正,从而产生目标值的音素段数据。
清音(unvoiced sound)的频谱强度是不规则分布的。因此,在对清音的频谱进行内插的情况下,可能会出现内插后的语音的频谱与内插前的音素段数据的每一个都不相似的情况。为此,优选的是,针对浊音(voiced sound)帧的内插方法与针对清音帧的内插方法互不相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210175478.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种橙色氮氧化物荧光粉材料的制备方法
- 下一篇:无胶水环保线盘