[发明专利]可调控式韵律重估测系统与方法及计算机程序产品有效
申请号: | 201110039235.8 | 申请日: | 2011-02-15 |
公开(公告)号: | CN102543081A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 林政源;黄健纮;郭志忠 | 申请(专利权)人: | 财团法人工业技术研究院 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L13/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 调控 韵律 估测 系统 方法 计算机 程序 产品 | ||
技术领域
本发明关于一种可调控式韵律重估测(controllable prosodyre-estimation)系统与方法及计算机程序产品。
背景技术
韵律预测在文字转语音(Text-To-Speech,TTS)系统上,对语音合成的自然性有很大的影响。文字转语音合成系统主要有基于大语料库(Corpus-based)的最佳单元选取合成方法以及隐藏式马可夫(HMM-based)统计模型方法。隐藏式马可夫模型统计方法的合成效果比较有一致性,不会因为输入的句子不同而有明显差异性。而训练出的语音模型文件通常都很小(例如3MB),这些特点都优于大语料库的方法,所以此HMM-based的语音合成最近变得很普及。然而,利用此方法在产生韵律时,通常有过度平滑化(over-smoothing)的问题。虽然有文献提出全域变异数的方法(global variance method)来改善此问题,使用此方法去调整频谱有明显正向效果,但用于调整基频(FO)则无听觉上的偏好效果,有时候似乎会因为伴随产生的副效应(side effect)而降低语音质量。
最近一些关于TTS的文献也提出加强TTS的丰富表现的技术,这些技术通常需要大量收集多样式的语料库(corpora),因此往往需要很多的后制处理。然而,建构一个韵律丰富性的TTS系统是十分耗时的,因此有部分的文献提出采用外部工具的方式提供TTS产生更多样化的韵律信息。例如,基于工具(tool-based)的系统提供使用者多种更新韵律的可行方案,像是提供使用者一个图形使用者接口(GUI)工具,来调整音高曲线(pitch contour)以改变韵律,并且根据新韵律重新合成语音;或是使用标记语言(markup language)来调整韵律等。然而,多数使用者无法正确地透过图形使用者接口来修改音高曲线,同样地,一般人并不熟悉如何撰写标记语言,所以,基于工具的系统在实际使用上也是不方便的。
关于TTS的专利文献有很多,例如可控制TTS输出质量、控制TTS不同速度输出的、用于计算机合成语音的中文语音音韵转换、使用韵律控制的中文文本至语音拼接合成、TTS韵预测方法以及语音合成系统及其韵律控制方法等。
举例来说,如图1所示的中文语音音韵转换系统100,是利用一个音韵分析单元130,接收一来源语音及相对应的文字,透过此分析单元里面的阶层拆解模块131、音韵转换函式选择模块132、音韵转换模块133撷取音韵信息,最后套用到语音合成单元150以产生合成语音(synthesized speech)。
如图2所示的语音合成系统与方法是一种针对外来语的TTS技术,以语言分析模块(language analysis module)204分析文字数据(text data)200而得的语言信息(language information)204a,透过韵律预测模块(prosodyprediction module)209产生韵律信息(prosody information)209a,接着由语音单元挑选模块(speech-unit selection module)208至特征参数数据库(characteristic parameter database)206中,挑选一序列较符合文字内容与预测韵律信息的语音数据,最后由语音语合成模块(speech synthesismodule)210合成出语音211。
发明内容
本发明实施的范例可提供一种可调控式韵律重估测系统与方法及计算机程序产品。
本发明公开了一种可调控式韵律重估测系统。此系统包含一个可调控式韵律参数接口以及一个语音或文字转语音(Speech-To-Speech orText-To-Speech,STS/TTS)的核心引擎。此可调控式韵律参数接口用来输入一可调控参数组。此核心引擎由一韵律预测或估算模块(prosodypredict/estimation module)、一韵律重估测模块(prosody re-estimationmodule)、以及一语音合成模块(speech synthesis module)所组成。此韵律预测或估算模块根据输入文稿或输入语音来预测出或估算出韵律信息,并传送至此韵律重估测模块。此韵律重估测模块根据输入的可调控参数组及收到的韵律信息,将此韵律信息重估测后,产生新的韵律信息,再提供给此语音合成模块以产生合成语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110039235.8/2.html,转载请声明来源钻瓜专利网。