[发明专利]一种融合韵律和个人信息的中文语音合成方法有效
申请号: | 202110667531.6 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113393829B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 汤步洲;付沪豪;刘超 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L25/30 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 韵律 个人信息 中文 语音 合成 方法 | ||
本发明提供了一种融合韵律和个人信息的中文语音合成方法,中文语音合成方法包括如下步骤:步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;步骤2:将输入文本对应的拼音、声调等输入到声学模型,得到输入文本对应的语音特征谱图;步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合,形成新的声学模型;步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。本发明有益效果:本发明在目前端到端合成模型的基础上,提高音频质量、速度;单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种融合韵律和个人信息的中文语音合成方法。
背景技术
随着手机、平板、智能家居及可穿戴设备等都开始接入语音功能,人机交互方式逐渐走入语音时代。与传统的人机交互不同的是,语音交互具有便捷性、智能性,可以使得机器具有像人一样听说读写的综合能力。语音合成是智能语音交互系统的最后一环,负责让机器说出特点文本、特定说话人的语音音频,其分为文本分析和声学模型建模两个部分。文本分析主要是对文本进行特征提取,为后端提供发音、韵律等文本相关的信息;后端的工作是基于前端提取的语言特征来进行声学建模,从而获得自然可懂的语音输出。语音合成技术经过几十年的研究,从最早通过机械组件来模拟人体发声,逐渐发展成基于单元波形拼接和统计参数合成两个主要技术流派,虽然该两种技术模型产生的语音质量基本上满足可懂度的要求,但针对不同的语言,其模型设计方式和语言特征提取的方式也不同,需要开发人员具有较强的语言学背景,极大的限制了模型的通用性,同时复杂的组件设计导致错误不断的被传递累加,从而限制着合成语音的自然度。随着人工智能浪潮的兴起,越来越多的研究人员都开始将神经网络技术应用到语音合成领域,使得语音合成技术进入了一个新的时代。目前的主流语音合成系统一般都是采取基于端到端的声学模型加神经网络声码器的串联架构,该架构生成音频的主观测试分数十分接近原始音频。同时由于深度学习技术的蓬勃发展,复杂的声码器技术也得到不断优化提速,让语音合成工程化应用成为可能。
随着合成音频音质的提升及合成速度的加快,公众的需求从最初的“可懂度”逐步发展到赋能场景的能力、对产品体验的提升上。目前市场上的大多数语音合成产品都是针对单人定制的,不能灵活的满足用户合成多个人声音的个性化需求。为了更好的迎合用户,探索多人合成技术是十分有必要的。因为多人语音合成技术可以提供一个通用模型,使得可以高效率、低成本的进行多人语音合成,具有很强的实用性。此外用户往往都希望获得自然流利的语音输出,促使了研究者将更多的注意力集中在文本的韵律结构预测任务中。正确的韵律结构信息引导合成系统学习到更恰当的停顿发音特点,尤其是针对中文这种极具韵律美的语言,用户更希望能够得到具有更自然的情感起伏、抑扬顿挫的语音。
发明内容
为了解决端到端中文语音合成中的长难句合成不稳定,音质发散、停顿韵律不自然的问题,本发明提供了一种中文语音合成方法,从用户的个性化需求出发,在目前端到端合成模型的基础上,提高音频质量、速度;同时在单人和多人的应用场景下,探索一种联合韵律预测任务和梅尔谱图生成任务的多任务学习方法,使得合成音频的停顿节奏感更自然,更贴近原始音频,并能支持多人语音合成。
本发明提供了一种融合韵律和个人信息的中文语音合成方法,包括如下步骤:
步骤1:将输入文本、输入文本对应的拼音和输入文本的词法句法特征输入层次化韵律预测模型,得到输入文本的多层韵律信息;
步骤2:将输入文本对应的拼音、声调输入到声学模型,得到输入文本对应的语音特征谱图;
步骤3:将多层韵律信息引入声学模型,将层次化韵律预测模型和声学模型进行联合形成新的声学模型;
步步骤4:在新的声学模型中引入说话人信息,形成个性化语音合成模型,支持多人个性化语音合成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667531.6/2.html,转载请声明来源钻瓜专利网。