[发明专利]音质转换装置及音质转换方法无效
申请号: | 200880001672.7 | 申请日: | 2008-05-08 |
公开(公告)号: | CN101578659A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 广濑良文;釜井孝浩;加藤弓子 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L21/04 | 分类号: | G10L21/04;G10L13/06 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 杨 谦;胡建新 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音质 转换 装置 方法 | ||
技术领域
本发明涉及转换声音的音质的音质转换装置及音质转换方法,尤其涉及将输入声音的音质转换为作为目标的讲话者的声音的音质的音质转换装置及音质转换方法。
背景技术
近几年,随着声音合成技术的发展,已经能够制作出极高音质的合成音。
但是,以往的合成音的用途主要以播音员的风格朗读新闻等用途为中心。
另一方面,在移动电话服务等领域,提供使用名人的声音信息来代替铃声之类的服务等,有特征的声音(个人再现性高的合成音,以及女高中生腔调或者关西方言腔调等具有特征性的韵律和音质的合成音)作为一个内容开始流通。为了增加这样的人际交流中的乐趣,可以想像对于制作给对方听的特征性的声音的要求今后会增高。
再者,作为合成音的方法,大致分为以下两种。即,从预先准备好的声音单元DB(数据库)中选择适当的声音单元,并通过将其进行连接来合成音的波形连接型声音合成方法,和对声音进行分析,以分析后的参数为基础来合成声音的分析合成型声音合成方法。
如果考虑使上述合成音的音质进行各种各样的变化,则在波形连接型声音合成方法中,需要尽量准备必要的声音单元DB,并切换声音单元DB,同时需要对声音单元进行连接。因此,为了制作各种各样音质的合成音,需要庞大的费用。
另一方面,在分析合成型声音合成方法中,通过使分析后的声音参数进行变形,能够转换合成音的音质。作为参数的变形方法,存在使用作为同样的讲话内容的不同的两个讲话进行转换的方法。
专利文献1表示使用神经网络等学习模式的分析合成型声音合成方法的一个例子。
图1是表示利用专利文献1的付与感情方法的声音处理系统的构成的图。
此图所示的声音处理系统包括:声分析部2、频谱的DP(DynamicProgramming:动态编程)匹配部4、各个音素的时间长度伸缩部6、神经网络部8、依据规则的合成参数生成部、时间长度伸缩部、声音合成系统部。声音处理系统在通过神经网络部8进行用于将无感情的声音的声特征参数转换成有感情的声音的声特征参数的学习之后,使用学习完毕的该神经网络部8,将感情付与无感情的声音。
频谱的DP匹配部4对声分析部2所抽取的特征参数之中的、无感情的声音的频谱的特征参数和有感情的声音的频谱的特征参数之间的相似度进行每时每刻的调查,通过取得每个同样的音素的时间上的对应,从而求出针对无感情声音的感情声音的每个音素的时间上的伸缩率。
各个音素的时间长度伸缩部6按照频谱的DP匹配部4所取得的每个音素的时间上的伸缩率,将感情声音的特征参数的时间序列在时间上进行归一化,从而使其适合无感情声音。
神经网络部8在学习时,每时每刻都对给予输入层的无感情声音的声特征参数和给予输出层的感情声音的声特征参数的差别进行学习。
并且,神经网络部8在感情的付与时,利用在学习时所决定的网络内部的加权系数,每时每刻进行由给予输入层的无感情声音的声特征参数推算感情声音的声响特征参数的计算。如上所述的,是根据学习模式进行从无感情声音到感情声音的转换。
但是,专利文献1的技术需要记录预先决定了的与用于学习的文章同样的内容为目标的有感情的发音。因此,在将专利文献1的技术应用于转换讲话者的情况下,需要使作为目标的讲话者将预先决定了的用于学习的文章全部念出来。所以,存在对目标讲话者增加负担的问题。
作为不必将预先决定了的用于学习的文章念出来也可以的方法,具有专利文献2中记述的方法。专利文献2中记述的方法是通过文本合成装置合成同样的讲话内容,并根据合成后的声音与目标声音的差分,来编写声音频谱形状的变换函数的方法。
图2是专利文献2的音质转换装置的框图。
目标讲话者的声音信号被输入目标讲话者声音输入部11a,声音识别部19对被输入到目标讲话者声音输入部11a的目标讲话者声音进行声音识别,将目标讲话者声音的发音内容与音标一起输出到音标序列输入部12a。声音合成部14按照被输入的音标序列,利用声音合成用数据存储部13内的声音合成用数据库来制作合成音。目标讲话者声音特征参数抽取部15对目标讲话者声音进行分析从而抽取特征参数,合成音特征参数抽取部16对制作成的合成音进行分析从而抽取特征参数。变换函数生成部17利用抽取了的双方的特征参数,生成将合成音的频谱形状转换为目标讲话者声音的频谱形状的函数。音质转换部18根据生成了的变换函数,进行输入信号的音质转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880001672.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:燃气机尾热循环利用装置
- 下一篇:一种牙轮钻机用湿式除尘装置