[发明专利]用于语音合成的系统、程序和控制方法有效
申请号: | 200680025445.9 | 申请日: | 2006-07-10 |
公开(公告)号: | CN101223572A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | 长野彻;森信介;西村雅史 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 周少杰;黄小临 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 合成 系统 程序 控制 方法 | ||
技术领域
本发明涉及一种系统、程序和控制方法,尤其涉及输出文本的重音(accent)和音素(phoneme)的系统、程序和控制方法。
背景技术
语音(speech)合成技术的最终目标是自然地产生合成语音,使得与人的发声无法区分,或者合成语音与人的发声一样准确和清晰、或者甚至比人的发声更准确和清晰。然而,目前的语音合成技术还未在所有方面达到人的发声的水平。
确定语音的自然和可理解性的基本因素包括音素和重音。语音合成系统典型地接收作为输入的字符串(例如,包括日文的日本汉字和平假名字符的文本)并输出语音。用于产生合成语音的处理典型地包括两个步骤:例如,称作前端处理的第一步骤和称作后端处理的第二步骤。
在前端处理中,语音合成系统执行用于分析文本的处理。特别地,语音合成系统接收作为输入的字符串,估计在输入字符串中的词边界,并且为每个提供词音素和重音。在后端处理中,语音合成系统基于给予各词的音素和重音分割语音片段,以便产生实际的合成语音。
传统的前端处理的问题是音素和重音的精度不够高。因此,会产生不自然的发音(sounding)的合成语音。为了解决该问题,已经提出了用于为输入字符串提供尽可能自然的音素和重音的技术(见下文引用的专利文献1和2)。
在专利文献1中所述的语音合成装置为每个拼写存储关于各词的拼写、音素、重音、词性和出现频率的信息(见专利文献1的图3)。当请求多于一个候选词片段时,计算每个候选词片段中的每个词的频率信息之和,并且选择提供最大的和的候选词片段(见专利文献1的段落22)。接着,输出与候选词片段相关联的音素和重音。
在专利文献2中描述的语音合成装置产生一组规则,其基于每个语素(morpheme)的属性确定每个语素的音素的重音。然后,输入文本被分割成各语素,输入每个语素的属性,并且将该组规则应用于它们以便确定各音素的重音。这里,语素的属性是音节延长度(mora)的数量、词性和语素的结合以及音节延长度(mora)的数量、词性和在它前后的语素的结合。
非专利文献1将随后描述。
[专利文献1]出版的未审查的专利申请No.2003-5776
[专利文献2]出版的未审查的专利申请No.2001-75585
[非专利文献1]Nagate,M.,“A stochastic Japanese morphological analyzerusing a Forward-DP Backward-A*N-Best search algorithm”,Proceedings ofColing,201-207页,1994
发明内容
在专利文献1中描述的技术中,基于有关每个词的频率信息确定候选词片段,而不管使用该词的上下文。然而,在其中没有明显指示词边界的语言(如日语和汉语)中,相同的拼写能够被分割为不同的依据上下文而变化的多个词,并且相对应地能够用不同的重音不同地发音。因此,所述技术不能总是确定适当的音素和重音。
在专利文献2中描述的技术中,重音的确定是作为与词边界或音素的确定分开的处理。该技术效率低,因为在扫描输入文本以便确定音素和词边界后,必须再次扫描该输入文本以便确定重音。按照该技术,输入训练数据以改进用于确定重音的规则组的精确度。然而,该组规则仅仅用于确定重音,因此即使增加训练数据的量也不能改进音素和词边界的确定的精确度。
因此,本发明寻求提供一种能够解决所述问题的系统、程序和控制方法。这通过在本发明的独立权利要求中描述的各特征的组合实现。各从属权利要求定义了本发明的更有优势的特定例子。
发明概述
本发明的第一个方面提供了一种系统、一种用于使得信息处理装置用作该系统的程序、以及一种控制该系统的控制方法,所述系统输出文本的音素和重音并且包括:存储部分,其存储第一语料库(corpus),该第一语料库中记录事先输入的文本的拼写、音素和重音,用于包括在所述文本中的各个词片段;文本采集部分,其采集将要为其输出音素和重音的文本;搜索部分,其从所述第一语料库中的各组拼写的连续的序列中,检索匹配该文本中的拼写的至少一组拼写;以及选择部分,其从对应于检索的该组拼写的音素和重音的组合中,选择在第一语料库中具有比预定的参考概率更高的出现概率的音素和重音的组合。
按照本发明,能够为文本提供自然发声的音素和重音。
附图说明
现在将仅仅通过举例的方式,参照附图描述本发明,在附图中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680025445.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动自组织网络路径代价分析方法
- 下一篇:光头器件以及用该光头器件的装置