[发明专利]语音合成方法、装置、设备及可读存储介质有效
申请号: | 202110863647.7 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113593521B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 谢慧智 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 谢冬寒 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 可读 存储 介质 | ||
1.一种语音合成方法,其特征在于,所述方法包括:
获取第一对象的会话数据;
根据所述第一对象的会话数据确定第二对象的情绪信息;
从文本数据库中查找与所述第一对象的会话数据相匹配的文本数据;
将所述文本数据转化为数据特征,将所述数据特征与所述第二对象的情绪信息进行拼接,得到第一信息,所述第二对象的情绪信息包括多个数据段的情绪特征,所述第一信息包括所述多个数据段的数据段特征;
根据各个数据段的数据段特征得到所述各个数据段的融合特征;
将第一个数据段的融合特征与所述第一个数据段的情绪特征进行拼接,根据拼接后的特征转化得到所述第一个数据段对应的频谱特征;
对于除所述第一个数据段之外的其他数据段,将所述其他数据段的融合特征与所述其他数据段的情绪特征进行拼接,根据拼接后的特征和所述其他数据段之前的至少一个数据段对应的频谱特征,得到所述其他数据段对应的频谱特征;
根据各个数据段对应的频谱特征得到所述第二对象的第一频谱信息;
根据所述第二对象的第一频谱信息生成所述第二对象的语音数据;
基于所述第二对象的语音数据对所述第一对象的会话数据进行回复。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一对象的会话数据确定第二对象的情绪信息,包括:
根据所述第一对象的会话数据获取所述第一对象的情绪信息;
根据所述第一对象的情绪信息生成所述第二对象的情绪信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一对象的会话数据获取所述第一对象的情绪信息,包括:
获取所述第一对象的会话数据的上下文数据;
根据所述第一对象的会话数据和所述上下文数据,获取所述第一对象的情绪信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一对象的会话数据获取所述第一对象的情绪信息,包括:
将所述第一对象的会话数据输入至情绪分类模型,由所述情绪分类模型输出所述第一对象的情绪信息。
5.根据权利要求4所述的方法,其特征在于,所述将所述第一对象的会话数据输入至情绪分类模型之前,还包括:
获取多个第一样本对象数据,所述第一样本对象数据包括带有情绪标签的第一会话数据,所述第一会话数据是第一样本对象的会话数据;
根据各个第一会话数据确定所述各个第一会话数据对应的情绪信息;
根据所述各个第一会话数据对应的情绪信息,确定所述各个第一会话数据对应的情绪分类结果;
根据所述各个第一会话数据对应的情绪分类结果和情绪标签,获取所述情绪分类模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一对象的情绪信息生成所述第二对象的情绪信息,包括:
将所述第一对象的情绪信息输入至情绪生成模型,由所述情绪生成模型输出所述第二对象的情绪信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一对象的情绪信息输入至情绪生成模型之前,还包括:
获取多个第二会话数据对应的情绪标签,所述第二会话数据是所述第一会话数据对应的第二样本对象的会话数据;
根据所述各个第一会话数据对应的情绪信息,生成各个所述第二会话数据对应的情绪信息;
根据所述各个第二会话数据对应的情绪信息,确定所述各个第二会话数据对应的情绪分类结果;
根据所述各个第二会话数据对应的情绪分类结果和情绪标签,获取所述情绪生成模型。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第二对象的第一频谱信息生成所述第二对象的语音数据,包括:
将所述第二对象的第一频谱信息与所述第二对象的情绪信息进行拼接,得到第三信息;
根据所述第三信息生成所述第二对象的语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110863647.7/1.html,转载请声明来源钻瓜专利网。