[发明专利]音质变换装置及其方法、元音信息制作装置及音质变换系统无效
申请号: | 201180002648.7 | 申请日: | 2011-03-16 |
公开(公告)号: | CN102473416A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 广濑良文;釜井孝浩 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L21/04 | 分类号: | G10L21/04;G10L11/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 陈萍;高迪 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音质 变换 装置 及其 方法 元音 信息 制作 系统 | ||
技术领域
本发明涉及将声音的音质变换的音质变换装置。特别涉及通过将声道信息变换来变换声音的音质的音质变换装置。
背景技术
近年来,因为声音合成技术的发展,能够制作非常高音质的合成音。但是,以往的合成音的用途中,将新闻文章以播音员语调朗读等的统一的用途为中心。
另一方面,在便携电话的服务等中,提供了代替便携电话的来电音而使用名人的声音消息的服务。这样,有特征的声音作为内容流通。例如,所谓有特征的声音,是个人再现性较高的合成音、因儿童等的年岁、或者地域特有的方言等而具有特征性的韵律及音质的合成音等。这样,为了增加个人间的通讯的乐趣,对于制作特征性的声音的要求提高。
人的声音如图17所示,通过声带1601的振动生成的音源波形当通过由声门1602到口唇1603构成的声道1604时、通过受到舌等调音器官的缩窄等的影响而生成。分析合成型声音合成法通过基于这样的声音的生成原理分析声音,将声音分离为声道信息和音源信息,通过将分离的声道信息和音源信息变形,能够变换合成音的音质。例如,作为声音的分析方法,使用称作声道音源模型的模型。在通过声道音源模型的分析中,将声音基于其生成过程分离为音源信息和声道信息。通过将分离的音源信息和声道信息分别变形,能够变换音质。
以往,作为使用少量的声音变换讲话者特征的方法,已知有按每个元音准备多个用来将元音谱包络变换的映射函数、使用基于前后音素的种类(音韵环境)选择的映射函数将谱包络变换来进行音质变换的音质变换装置(例如,参照专利文献1)。在图18中表示专利文献1中记载的以往的音质变换装置的功能性结构。
图18所示的以往的音质变换装置具备谱包络提取部11、谱包络变换部12、声音合成部13、声音标签赋予部14、声音标签信息存储部15、变换标签制作部16、音素间变换表推测部17、变换表选择部18和谱包络变换表存储部19。
谱包络提取部11从变换源讲话者的输入声音中提取谱包络。谱包络变换部12将由谱包络提取部11提取的谱包络变换。声音合成部13根据由谱包络变换部12变换后的谱包络合成变换目标讲话者的声音。
声音标签赋予部14赋予声音标签信息。声音标签信息存储部15将由声音标签赋予部14赋予的上述声音标签信息存储。变换标签制作部16基于存储在声音标签信息存储部15中的上述声音标签信息,制作表示用来变换谱包络的控制信息的变换标签。音素间变换表推测部17推测构成变换源讲话者的输入声音的音素间的谱包络变换表。变换表选择部18基于由变换标签制作部16制作的变换标签,从后述的谱包络变换表存储部19中选择谱包络变换表。谱包络变换表存储部19存储有作为已学习的元音的谱包络变换规则的元音谱包络变换表19a以及作为辅音的谱包络变换规则的辅音谱包络变换表19b。
变换表选择部18从元音谱包络变换表19a及辅音谱包络变换表19b中分别选择与构成变换源讲话者的输入声音的音素的元音及辅音对应的谱包络变换表。音素间变换表推测部17基于所选择的谱包络变换表,推测构成变换源讲话者的输入声音的音素间的谱包络变换表。谱包络变换部12基于上述选择的谱包络变换表和推测的音素间的谱包络变换表,将由谱包络提取部11从变换源讲话者的输入声音提取的谱包络变换。声音合成部13根据变换后的谱包络合成变换目标讲话者的音质的声音。
现有技术文献
专利文献
专利文献1:特开2002-215198号公报
发明内容
发明要解决的课题
在上述专利文献1的音质变换装置中,为了进行音质变换,基于变换源讲话者发声的声音的前后的音素的信息即音韵环境选择用来变换谱包络的变换规则,通过将所选择的变换规则适用于输入声音的谱包络,将输入声音的音质变换。
但是,仅通过音韵环境决定作为目标的声音应拥有的音质是困难的。
自然的发声的音质受到声音的讲话速度、讲话中的位置、或者重音句内的位置等各种各样的因素影响。例如,在自然的讲话中,有句首清楚且高清晰度地发声、而在句尾发生发音的慵懒而清晰度下降的倾向。或者,在变换源讲话者的讲话中强调了某个单词的情况下,该单词的音质与没有协调的情况相比有清晰度变高的倾向。
图19是表示由同一讲话者进行的之前的音素为同一个的相同元音的声道传递特性的曲线图。在图19中,横轴表示频率,纵轴表示谱强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180002648.7/2.html,转载请声明来源钻瓜专利网。