[发明专利]面向情景及情感的中文语音合成方法、装置及存储介质在审
申请号: | 201910531628.7 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110211563A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 彭话易;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L15/22;G10L15/26;G10L25/30;G10L25/63 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 李玉琦;张超艳 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感状态 输入语音 语音 合成 中文语音合成 存储介质 情感分析 语音合成 人工智能技术 人机交互过程 合成文本 交互场景 情景分析 用户体验 输出 固定的 情景 情绪 场景 对话 分析 | ||
本发明属于人工智能技术领域,公开了一种面向情景及情感的中文语音合成方法、装置及存储介质,所述方法包括:获取输入语音;将所述输入语音输入情感分析模型,通过所述情感分析模型输出所述输入语音的情感状态;根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态;根据所述合成语音的情感状态以及基于输入语音确定的待合成文本进行语音合成。本发明通过对输入语音进行情感状态分析,根据输入语音的情感状态获取合成语音的情感状态,在进行语音合成时,加入情感状态以及情景分析,使得合成语音的语气和情绪符合当前的交互场景,而不再是固定的语气和情绪,在人机交互过程中,输出的合成语音更像真人,增强用户体验。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种面向情景及情感的中文语音合成方法、装置及存储介质。
背景技术
随着计算机技术的快速发展,人们对语音合成系统的要求也越来越高,从最初的“能听明白”到如今的“希望和真人一样”。现有语音合成系统的技术方案主要有三种:参数合成技术、波形拼接技术以及基于深度学习的端到端型合成技术。其中,通过波形拼接合成的语音拥有非常高的音质,但是制作其所需的语音库是非常耗时耗力的,通常需要30小时以上的录音以及进行相关的切割标注工作。现有的端到端型语音合成技术也能够合成高音质以及拥有极为良好韵律的语音,且其所需的训练语音库通常只需要15个小时左右。与波形拼接技术相比,其合成速度稍微缓慢,并且其实现需要GPU,所以成本较为高昂。尽管现有的语音合成系统合成的语音在音质上良好,但是和真人相比,还是有所差距。而造成这种差距的最主要原因是同一个语音系统总是以同一种语气和同一种情感合成语音,但是人类在说话的时候,语气以及情绪是在不断变换的,它们是和说话的场景以及说话的内容息息相关的,当合成语音的语气和情绪不符合当前场景时,就算合成的语音音质很好,我们依然会觉得很假,因为这和我们的认知不符。例如,智能音箱现在已经广泛的存在于市场中,而语音合成系统则能够使智能音箱与人类进行交流,假设一位女生和智能音箱发生了如下对话:
女生:今天我要穿这件衣服,你觉得好看吗?(激动开心的语气)
智能音箱:我觉得非常好看。(非常平淡的固定语气)
上述这样的对话现在常常发生于人类与机器的智能交互当中,当人类以某种情绪发出对话时,语音合成系统却以其固定的语气和情绪合成语音进行反馈,这样的体验会让人类觉得合成的语音不像真人,使得人机交互难以很好地继续进行,也会影响机器使用的用户体验。
发明内容
本发明提供一种面向情景及情感的中文语音合成方法、装置及存储介质,以解决现有技术中总是以固定的语气和情绪合成语音导致人机交互难以很好地继续进行的问题。
为了实现上述目的,本发明的一个方面是提供一种面向情景及情感的中文语音合成方法,包括:获取输入语音;将所述输入语音输入情感分析模型,通过所述情感分析模型输出所述输入语音的情感状态;根据对话场景以及所述输入语音的情感状态确定合成语音的情感状态;根据所述合成语音的情感状态以及基于所述输入语音确定的待合成文本进行语音合成。
优选地,所述情感分析模型包括基于语音的情感识别模型,通过所述情感分析模型输出所述输入语音的情感状态的步骤包括:获取所述输入语音的声谱图和语音特征参数;将所述输入语音的声谱图输入所述情感识别模型中的经过训练得到的卷积循环神经网络中,通过所述卷积循环神经网络和第一全连接层输出第一特征向量;根据所述语音特征参数获取统计特征,输入所述情感识别模型中,通过所述情感识别模型中的三个第二全连接层输出第二特征向量;将所述第一特征向量与所述第二特征向量进行融合,得到融合特征向量;所述融合特征向量通过所述情感识别模型中的第三全连接层和归一化层输出所述输入语音的情感的第一概率向量;根据所述第一概率向量获取所述输入语音的情感状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910531628.7/2.html,转载请声明来源钻瓜专利网。