[发明专利]一种基于分布式自然韵律优化本地合成方法有效
申请号: | 201210585840.X | 申请日: | 2012-12-30 |
公开(公告)号: | CN103077705A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 郜静文;殷翔;孙见青;江源;刘艳茹;袁武文;张鑫;孙梦娟;赵志伟;吴晓如 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于分布式自然韵律优化本地合成效果的方法,用于低码率传输自然语音韵律信息并在本地合成,包括以下步骤:由录音数据或者服务器级别的合成系统,生成合成文本的前端标注信息和语音韵律信息。然后通过网络的方式将信息下载到本地,本地使用这些信息结合后端系统合成。由于使用了更好的前端信息和后端韵律参数,提升了本地合成的韵律,从而提高本地合成效果。同时由于基频和时长占用的数据量很少,相比传统网络合成方式响应速度更快和流量更少。 | ||
搜索关键词: | 一种 基于 分布式 自然 韵律 优化 本地 合成 方法 | ||
【主权项】:
一种基于分布式自然韵律优化本地合成方法,其特征在于包括:合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤;第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,用于网络传输;所述参数信息包含基频,时长和频谱信息,其中基频和时长信息在网络端生成;具体实现如下:(1)如果没有录音数据,则文本输入到服务器合成系统,文本前端信息和基频、时长信息均能够利用服务器合成系统生成,由于服务器端相对于终端设备有更多的运算和存储空间,服务器端能够配置最好的语音合成系统,从而获得更准确的前端和基频、时长信息;(2)如果是已有的录音数据,则分为以下三步进行提取:(2.1)合成文本前端信息根据录音数据获取,先生成相应的韵律文本,再转换为语音对应的标注文本;(2.2)时长信息通过发音人已有的合成模型进行状态时长切分,时长信息为音素的状态时长,每个音素包含5个状态,时长信息提前生成,不用等到待合成时再生成;基频信息利用STRAIGHT工具生成,或者使用人工标注的基频,之后按照音素对应的状态为单位,进行基频静态参数均值和一阶动态参数均值的计算。计算以帧为单位,5ms一帧,其中基频静态参数为当前帧F0的对数值,即lf0,一阶动态参数为后一帧的lf0减去前一帧的lf0,差值除以2,基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均,一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均;(2.3)将提取得到的合成文本前端信息输出到文本文件中,而基频均值、时长信息整合到二进制文件中用于网络传输;第二步,低码率网络传输将第一步生成的合成文本前端信息的文本文件和基频均值、时长的二进制文件通过网络方式传输到终端设备上;第三步,终端设备接收到网络数据后,利用本地合成器解析与合成,具体步骤为:(3.1)本地合成器接收到合成文本前端信息进行文本解析后,采用传统参数生成方法,由本地合成模型决策得到文本对应的频谱信息;(3.2)由网络传输得到二进制文件,解码后得到相应的状态时长与基频均值数据,根据MLPG(Maximum Likelihood Parameter Generation)算法生成基频数值,结合上述生成的频谱参数,利用本地参数合成器完成合成,输出合成语音数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210585840.X/,转载请声明来源钻瓜专利网。
- 上一篇:有机溶剂的提纯方法
- 下一篇:一种新型LED吸顶灯