[发明专利]合成语音的方法和装置有效
申请号: | 201080000927.5 | 申请日: | 2010-01-04 |
公开(公告)号: | CN102203853A | 公开(公告)日: | 2011-09-28 |
发明(设计)人: | 汪曦;栾剑;李健 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 杨晓光;刘瑞东 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 合成 语音 方法 装置 | ||
技术领域
本发明涉及信息处理技术,具体地涉及语音合成技术,更具体地涉及在语音合成的过程中嵌入信息的技术。
背景技术
目前,语音合成系统已经应用于很多方面,为人们的生活提供了便利。但是,这些合成的语音很少进行版权保护,而不像很多其他的音频产品通过数字水印技术进行了很好的版权保护。合成的语音通常是来源于专业的播音员录制的语音数据库经过复杂的合成算法形成所需要的语音,其实他/她们的声音本身也应该受到版权保护。另外,合成的语音在许多应用中需要嵌入一些补充信息来丰富用途并且要保证嵌入的信息对语音信号影响最小,例如在互联网应用中的语音中嵌入文本信息。但是由于语音合成系统本身已经很复杂了,再加入水印嵌入模块则对目前的系统复杂度和硬件要求提出了更高的挑战。
统计参数语音合成方法是语音合成的一种重要方法(具体细节参见非专利文献1,其介绍了一种统计参数语音合成系统的框架)。在统计参数语音合成系统中,首先对语音信号进行分析提取参数,然后对这些参数进行训练,获得统计参数模型,最后从统计参数模型中直接合成语音。这种语音合成的框架有很多优点。它只需要很小的资源存储,并且很容易对语音进行各种修改。参数合成一般采用源-滤波器语音模型。该模型主要由两部分组成:源表示语音的激励部分,描述了语音的时频结构,滤波器表示语音的幅频响应。
数字水印技术已经用于多媒体应用很多年,用来保护版权信息或者隐藏一些有用的信息。语音水印技术是专门用来针对语音数据一项技术。为了合理地隐藏信息于数据中,很多水印算法对语音信号进行了深层的分析得到语音参数,然后在参数中加入数字水印数据再通过合成算法恢复出语音,使得水印算法的过程看起来与语音分析-合成的过程很像(具体细节参见非专利文献2,其介绍了一种基于语音分析合成方法的水印技术)。然而,一般观点看来语音合成和数字水印是两个不同的系统完成不同的功能,即语音水印技术都是在合成的语音的基础上分析语音再加入水印后再恢复或者采用其他的一些方法,而没有在语音合成的同时加入水印。
非专利文献1:H.Zen,T.Nose,J.Yamagishi,S.Sako,T.Masuko,A.W. Black,K.Tokuda,“The HMM-based Speech Synthesis System(HTS) Version 2.0”,Proc.of ISCA SSW6,Bonn,Germany,Aug.2007,在此通过参考引入其整个内容。
非专利文献2:Hofbauer,Konrad,Kubin,Gernot,“High-Rate Data Embedding in Unvoiced Speech”,In INTERSPEECH-2006,paper 1906-Mon1FoP.10,在此通过参考引入其整个内容。
发明内容
本发明正是鉴于上述现有技术中的问题而提出了一种在基于参数的语音合成的过程中嵌入信息的方法和装置,其可以在语音合成系统中很巧妙且合理地嵌入这一信息,得到高质量的语音,具有复杂度低,安全可靠等许多优点。
根据本发明的一个方面,提供了一种合成带有信息的语音的方法,包括以下步骤:输入文本句;对输入的文本句进行文本分析,以提取语言学信息;利用上述语言学信息和预先训练好的统计参数模型,生成语音参数;在上述语音参数中嵌入预定的信息;以及将嵌入了上述信息的上述语音参数合成为带有上述信息的语音。
优选,在上述合成带有信息的语音的方法中,上述语音参数包括基频参数和谱参数,上述在上述语音参数中嵌入预定的信息的步骤包括以下步骤:基于上述基频参数生成浊音激励;生成清音激励;将上述浊音激励和上述清音激励组合成激励源;以及在上述激励源中嵌入上述信息。
另外,优选,在上述合成带有信息的语音的方法中,上述语音参数包括基频参数和谱参数,上述在上述语音参数中嵌入预定的信息的步骤包括以下步骤:基于上述基频参数生成浊音激励;生成清音激励;在上述清音激励中嵌入上述信息;以及将上述浊音激励和嵌入了上述信息的上述清音激励组合成激励源。
优选,在上述合成带有信息的语音的方法中,上述合成带有上述信息的语音的步骤包括以下步骤:基于上述谱参数构建合成滤波器;以及利用上述合成滤波器将嵌入了上述信息的上述激励源合成为带有上述信息的语音。
优选,上述合成带有信息的语音的方法还包括在合成带有上述信息的语音的步骤之后检测上述信息的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080000927.5/2.html,转载请声明来源钻瓜专利网。