[发明专利]语音合成装置以及语音合成方法无效
申请号: | 201280010637.8 | 申请日: | 2012-07-12 |
公开(公告)号: | CN103403797A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 广濑良文;釜井孝浩 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06;G10L13/08 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 陈萍;高迪 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 装置 以及 方法 | ||
技术领域
本发明涉及能够生成自然的合成语音的语音合成装置及其方法。
背景技术
最近,由于语音合成技术的发达,能够制成非常高音质的合成音。作为真声感高的语音合成装置,存在从大规模的片段存储部选择语音波形并连接的波形连接方式的语音合成装置(例如,参照专利文献1)。图17为波形连接型的语音合成装置的典型的构成图。
图17所示的语音合成装置包括语言解析部501、韵律生成部502、语音片段DB(数据库)503、片段选择部504、以及波形连接部505。
语言解析部501语言性地解析输入的文本,输出发音记号以及重音信息。韵律生成部502基于由语言解析部501输出的发音记号以及重音信息,针对每个发音记号生成基频、持续时间长度、功率等的韵律信息。语音片段DB503为片段存储部,存储作为事先收录的语音片段数据(以下,仅称为“语音片段”)的语音波形。片段选择部504基于由韵律生成部502生成的韵律信息,从语音片段DB503选择最佳的语音片段。波形连接部505通过连接由片段选择部504选择的语音片段,生成合成音。
在先技术文献
专利文献
专利文献1:日本特开平10-247097号公报
专利文献2:日本特开2004-125843号公报
非专利文献
非专利文献1:北村达也等,「母音発声時の声道断面積関数の個人差について(关于母音发音时的声道截面积函数的个人差异)」,日本音响学会2004年春季研究发表会演讲论文集-I-,社团法人日本音响学会,2004年3月
非专利文献2:杨长盛等,「声道形状の違いがフオルマソト周波数の非一様性に及ぼす影響(声道形状的差异对共振峰频率的非一致性造成的影响)」、日本音响学会研究发表会议演讲论文集春I,1996年
发明的概要
发明要解决的问题
专利文献1的语音合成装置通过基于针对输入的文本的音素环境以及韵律信息,选择存储于片段存储部的语音片段,连接选择的语音片段,据此合成语音。
可是,只通过上述的音素环境以及韵律信息决定合成语音所应保有的声质是困难的。
本申请发明人们发现如下问题点,即若发声形态的时间变化异于输入语音的时间变化,则无法保持合成语音中的发声形态的变化的自然性,其结果是,合成音的自然性大为劣化。
发明内容
本发明便是鉴于上述问题点而提出的,其目的在于提供一种语音合成装置,保持自然产生被输入的文本时的语音所保有的发声形态的时间性变动并且合成语音,据此降低语音合成时的自然性的劣化。
用于解决问题的手段
本发明的某一方面所涉及的语音合成装置为生成输入的文本的合成音的语音合成装置,包括:开口度生成部,利用表示根据所述文本生成的音素的种类与该音素在所述文本中的位置的信息,按根据所述文本生成的每个音素,以在所述文本中位于句首的音素的开口度大于位于句末的音素的开口度的方式,生成与口腔内的容积对应的开口度;片段选择部,从存储有各自包含音素的种类、开口度的信息以及语音片段数据的多个片段信息的片段存储部,按根据所述文本生成的每个音素,基于该音素的种类以及开口度,从存储于所述片段存储部的所述多个片段信息之中,选择与该音素对应的片段信息;以及合成部,利用所述片段选择部所选择的所述片段信息与根据所述文本生成的韵律信息,生成所述文本的合成音。
另外,这些整体性或者具体性的形态通过系统、方法、集成电路、计算机程序或者计算机可读取的CD-ROM等记录介质来实现亦可,通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现亦可。
发明效果
本发明保持自然产生被输入的文本时的语音所保有的发声形态的时间性变动并且合成语音,由此能够合成降低了语音合成时自然性的劣化的语音。
附图说明
图1为表示人类的发声机构的图。
图2为表示因发声形态的差异而致的声道传递特性的差异的图。
图3为表示发声形态的时间性变动的概念图。
图4为表示因发声形态的差异而致的共振峰频率的差异的一例的图。
图5为表示因发声形态的差异而致的声道截面积函数的差异的图。
图6为本发明的实施方式1的语音合成装置的构成图。
图7为用于说明韵律信息的生成方法的图。
图8为表示声道截面积函数的例子的图。
图9为表示发声内的开口度的时间模式(pattern)的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280010637.8/2.html,转载请声明来源钻瓜专利网。