[发明专利]定量的F0轮廓生成装置及方法、以及用于生成F0轮廓的模型学习装置及方法在审
申请号: | 201480045803.7 | 申请日: | 2014-08-13 |
公开(公告)号: | CN105474307A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 倪晋富;志贺芳则 | 申请(专利权)人: | 国立研究开发法人情报通信研究机构 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 赵琳琳 |
地址: | 日本国*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 定量 f0 轮廓 生成 装置 方法 以及 用于 模型 学习 | ||
技术领域
本发明涉及声音合成技术,特别是涉及声音合成时的基频轮廓 (fundamentalfrequencycontours)的合成技术。
背景技术
声音的基频的时间变化轮廓(以下称为“F0轮廓”)有助于使句子的 划分明确、表现音调(accent)位置、或者区分单词。F0轮廓还在传递伴 随于发声的感情等非语言的信息方面发挥着很大作用。进而,F0轮廓对 于发声的自然度也会产生较大影响。特别是,为了使发声中的焦点所在的 位置明了,从而使句子的构造明确,需要使句子以适当的语调来发声。若 F0轮廓不适当,则有损于合成声音的可理解性。因此,在声音合成中, 如何合成期望的F0轮廓成为大的问题。
作为F0轮廓的合成方法,存在后述的非专利文献1中公开的被称为 藤崎模型的方法。
藤崎模型是通过少量的参数来定量地描述F0轮廓的F0轮廓生成过 程模型。参照图1,该F0轮廓生成过程模型30是将F0轮廓作为短语成 分、音调成分与基底成分Fb之和来表现的模型。
所谓短语成分是指在发声之中按照下述方式变化的成分,即,该成分 具有在一个短语开始之后立即上升到顶峰,然后直至短语结束为止缓慢下 降。所谓音调成分是指由与词对应的局部凹凸来表征的成分。
参照图1的左侧,在藤崎模型中,由短语控制机构42针对在短语的 起始处产生的脉冲型的短语指令40的响应来表征短语成分。另一方面, 音调成分同样由音调控制机构46针对台阶状的音调指令44的响应来表征。 通过利用加法器48将这些短语成分、音调成分与基底成分Fb的对数 logeFb进行加法运算,从而可获得F0轮廓50的对数表现logeF0(t)。
在该模型中,音调成分及短语成分、与发声的语言学信息及副语言学 信息之间的对应关系是明确的。另外,还具有仅通过改变模型参数就能容 易地确定句子的焦点的特征。
然而,在该模型中,存在难以决定适当的参数的问题。在最近的声音 技术中,随着计算机的发展,根据大量收集到的声音数据来构筑模型的方 法成为主流。在藤崎模型中,难以根据在声音语料库中观测到的F0轮廓 来自动获得模型参数。
另一方面,作为根据大量收集到的声音数据来构筑模型的方法的典型 方法,有如后述的非专利文献2所记载的根据在声音语料库中观测到的 F0轮廓来构筑HMM(HiddenMarcovModel:隐马尔可夫模型)的方法。 该方法由于能够从声音语料库获得各种各样的发声语境中的F0轮廓来进 行模型化,因此在实现合成声音的自然度及信息传递功能上是极为重要的。
参照图2,按照该方法的现有的声音合成系统70包括:模型学习部 80,其根据声音语料库进行F0轮廓合成用的HMM模型的学习;和声音 合成部82,其按照利用通过学习获得的HMM而得到的F0轮廓,对与所 输入的文本对应的合成声音信号118进行合成。
模型学习部80包括:声音语料库存储装置90,其存储标注了音素的 语境标签的声音语料库;F0提取部92,其根据声音语料库存储装置90 所存储的声音语料库内的各发声的声音信号来提取F0;频谱参数提取部 94,其同样根据各发声来提取梅尔倒谱(mel-cepstrum)参数来作为频谱 参数;和HMM学习部96,其利用由F0提取部92提取出的F0轮廓、从 声音语料库存储装置90获得的与F0轮廓对应的发声中的各音素的标签、 及从频谱参数提取部94赋予的梅尔倒谱参数,生成各帧的特征向量,若 被赋予了由成为生成对象的音素的语境标签构成的标签串,则进行HMM 的统计性学习,以输出在该帧中各F0频率与梅尔倒谱参数的组被输出的 概率。在此,所谓语境标签是声音合成用的控制符号,是对该音素赋予了 该音素环境等各种各样的语言信息(context)的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国立研究开发法人情报通信研究机构,未经国立研究开发法人情报通信研究机构许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480045803.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音频信号编码器
- 下一篇:呈现与映射元素关联的摘要信息的系统和方法