[发明专利]一种动态汉语语音合成方法无效
申请号: | 01123418.0 | 申请日: | 2001-07-20 |
公开(公告)号: | CN1333501A | 公开(公告)日: | 2002-01-30 |
发明(设计)人: | 吕士楠;陈明;张连毅;贺琳;耿俊成 | 申请(专利权)人: | 北京捷通华声语音技术有限公司 |
主分类号: | G06F3/16 | 分类号: | G06F3/16;G06F17/30;G10L13/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 汉语 语音 合成 方法 | ||
本发明涉及一种语音合成技术,特别是涉及一种基于大规模自然语音音库的动态汉语语音合成技术。
目前,国内外语音合成技术主要有参数合成技术和波形合成技术两种。波形合成技术又分为简单波形拼接技术和基音同步波形叠加技术两种。
从理论上讲参数合成技术是合理的,但这种技术过分依赖于语言学和语音学的发展,由于言语生成模型不够完善,合成语音的音质总是不尽人意。
应用参数合成技术的资料可参阅中国重大科技成果数据库(1986—今),1.编号851408,四川大学杨家沅等的研究成果:“计算机汉语语音合成装置”;2.编号880759,四川大学苟大举等的研究成果,“无限词汇的计算机汉语语音合成系统”;3.编号912209,复旦大学李宗葛等的研究成果:“人—机器人汉语语音通信系统研究”。
波形拼接技术在用于语音表公共汽车报站器等有限词汇合成时,能合成出清晰、自然的语音。但简单的波形拼接法用于无限词汇的汉语文语转换系统时,由于不能改变原始采样波形的声学参数,以使其适应于不同的上下文语言环境,所以使得合成出的连续语音的自然度较差。
应用波形拼接合成技术的资料可查阅:1.中国发明专利:ZL94103372,发明人:清华大学蔡莲红等,发明名称:“基于波形编辑的汉语文字—语音转换方法及系统”;2.中国重大科技成果数据库,a.编号891728,复旦大学邵祥义等的研究成果:“汉语语声识别及合成技术开发”;b.编号941008,清华大学蔡莲红等的研究成果,“汉语文语转换系统TH-Speech”;3.中国适用技术数据库(1983—今),编号199012,同济大学邵祥义等的研究成果:“汉语语声识别及合成技术开发”。
利用基因同步波形叠加方法在时间域中调节韵律参数,对提高自然度有一定作用,但处理后的声音和音色与原始发音不完全相同,有机器声、回声,听起来不够亲切和清晰,也很难为公众所接受。相关文献见中国实用新型专利ZL 97215108,发明人吕士楠等,发明名称为“基音同步波形叠加汉语文语转换装置”。
本发明的目的是针对现有的利用参数合成、简单波形拼接合成以及基音同步叠加技术的语音合成所存在的缺陷和不足,采用一种基于拼接自然言语片段的无限词汇动态汉语语音技术,提供一种高清晰度和高自然度的汉语文语转换系统,即以自然语音的音色和韵律将汉字文本变成语音的播放系统。该系统以大规模的自然语音的数字化录音为基础,通过选取相匹配的语音片段的拼接,以达到合成为自然、流畅的汉语语音的目的。
本发明主要基于大规模自然语音的录音音库。大规模的概念是指录音音库的范围基本覆盖了绝大多数上下文环境中的各种发音的情况,针对不同的上下文环境,系统将选取最匹配的原始语音片段来加以拼接。由于音库的规模很大,因此在几乎所有情况下,都能够找到最适合的原始自然语音,而无需使用其它技术进行调节,因此保证了最终合成的语音和原始语音的一致性。另外,这里所选取的片段超越了音节的层次,而是多字词,这样就进一步保证了合成语音的自然度。本发明的技术方案主要分为两部分:一是大规模录音音库的构造,二是语音的合成。
在大规模录音音库的构造过程中,主要包括以下几个步骤:
首先,进行录音文本设计(即拟定录音的内容)。通过计算机从一个大规模语料库(1999年人民日报,约2500万字)中检索高频度的汉语语句,再由人工确认并淘汰不合适的语句。在此检索结果上构造录音文本,以保证根据此录音文本录制的音库具有较高的覆盖率,既能够覆盖所有的汉语基本音节,包括常见的轻声、儿化音节和绝大多数的上下文语言环境,如句法结构及语法重音配置等。
第二步,拟定录音内容后。请一位专业播音员在专用的录音室中进行录音,房间的混响时间为0.5秒左右,信噪比高于30分贝,用高保真话筒和放大器,要求从20Hz~20KHz间有平坦的响应。要求播音员按照正常的速度和音高朗读所拟定的录音文本。用数字录音机和数字录音磁带采用16位量化,不低于16KHz采样率进行录音。同时采用电声门波图仪记录声门振动的信号,并记录在数字录音磁带上。
第三步,由人工将上述得到的录音信号,从数字录音机中通过采样卡采到计算机中,由此便得到真实录音的语音库。同时将声门振动的信号也采样到计算机中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声语音技术有限公司,未经北京捷通华声语音技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01123418.0/2.html,转载请声明来源钻瓜专利网。