[发明专利]情感语音合成方法和系统有效
申请号: | 201010271135.3 | 申请日: | 2010-08-31 |
公开(公告)号: | CN102385858A | 公开(公告)日: | 2012-03-21 |
发明(设计)人: | 双志伟;包胜华;陈健;刘文;张世磊;苏中;施勤;秦勇 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/06 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 语音 合成 方法 系统 | ||
技术领域
本发明总体上涉及语音合成的方法和系统,特别的本发明涉及情感语音合成方法和系统。
背景技术
语音合成TTS是指根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。目前几种主要语音合成工具的合成水平均已到实用阶段。
众所周知,人在阅读过程中所表达的情感可能是多种多样的,比如“Mr.Ding suffers severe paralysis since he is young,but he learns through self-study and finally wins the heart of Ms.Zhao with the help of network”这句话在阅读中可能前半句话用比较悲伤的情绪阅读,而后半句话用比较高兴的情绪阅读。然而,传统的语音合成技术并不考虑文本内容中所附加的情感信息,也就是说传统的语音合成技术对在进行语音合成时并不考虑待处理的文本所表达的情感是高兴、悲伤还是愤怒等。
情感语音合成是近几年语音合成的研究热点,在情感语音合成的研究中所必须解决的问题是确定情感状态和建立情感状态与语音的声学特征的关联关系。现有的情感语音合成技术允许操作者通过人工的方式指定某个句子的情感类别,比如人工的指定“Mr.Ding suffers severe paralysis since he is young”这句话的情感类型为悲伤,“but he learns through self-study and finally wins the heart of Ms.Zhao with the help of network”这句话的情感类型为高兴,并且在语音合成过程中以指定的情感类型对该句子进行处理。
发明内容
本发明的发明人经研究发现,当前的情感语音合成技术中存在很多没有解决的问题,其一、由于每个句子被赋予了统一的情感类型,因此整个句子都用统一的情感来阅读因此实际效果不够自然、平滑;其二、不同句子被赋予不同的情感类型,因此在句子与句子之间出现比较突兀的情感变化;其三、人工确定句子情感的方式成本较高,不使用于语音合成的批量处理。
本发明提供一种情感语音合成技术方案,该方案用于解决上述列举的现有技术中存在的至少一个问题。具体而言,本发明一种情感语音合成方法,包括:接收文本数据;对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及按照所述情感标记对所述文本数据进行语音合成。
本发明还提供一种情感语音合成系统,包括:文本数据接收模块,用于接收文本数据;情感标记生成模块,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及语音合成模块,用于按照所述情感标记对所述文本数据进行语音合成。
通过本发明可以使语音合成的效果更加自然,更贴近真实的阅读声音。具体而言,本发明是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本发明中的情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数,这使得本发明中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本发明无需人工干预,也就是说无需人工对每句话指定固定的情感标记。
附图说明
本说明中所参考的附图只用于示例本发明的典型实施例,不应该认为是对本发明范围的限制。
图1示出了按照本发明的一个实施例的情感语音合成方法流程。
图2A示出了按照本发明的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。
图2B示出了按照本发明的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。
图2C示出了情感矢量调整决策树的片断示意图。
图3示出了按照本发明的另一个实施例的情感语音合成方法流程。
图4A示出了按照本发明的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。
图4B示出了按照本发明的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。
图5示出了按照本发明的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。
图6A示出了按照本发明的一个实施例进行语音合成的方法流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010271135.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:晶圆位置的检测装置
- 下一篇:一种铝合金三维发光字