[发明专利]一种语音情感分类及合成方法、系统、装置及存储介质在审
申请号: | 202211570941.X | 申请日: | 2022-12-08 |
公开(公告)号: | CN116013370A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 叶俊杰;凌瑞欣;王伦基;莫世玉;付玟 | 申请(专利权)人: | 广州赛灵力科技有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03;G10L25/24;G10L13/047;G10L13/04;G10L13/033 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 尹长斌 |
地址: | 510663 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 情感 分类 合成 方法 系统 装置 存储 介质 | ||
1.一种语音情感分类方法,其特征在于,包括:
获取语音数据,并对所述语音数据进行第一预处理;
将第一预处理后的语音数据输入到训练好的情感特征提取模型以得到情感特征向量,以及将第一预处理后的语音数据输入到训练好的语者识别模型以得到说话人特征向量;
将所述情感特征向量及所述说话人特征向量进行融合,并将融合后的特征向量输入到情感特征分类模型以得到所述语音数据的情感分类;
所述情感特征提取模型的训练过程如下:
获取若干个说话人的语音数据样本,并对所述语音数据样本进行第二预处理,所述语音数据样本包含情感信息和说话人信息;
将第二处理后的语音数据样本输入到所述情感特征提取模型以得到情感特征向量样本,以及将第二处理后的语音数据样本输入到所述语者识别模型以得到说话人特征向量样本,并将所述说话人特征向量样本输入到所述情感特征提取模型,将所述情感特征向量样本及所述说话人特征向量样本进行融合,并将融合后的特征向量样本输入到所述情感分类特征模型以得到所述语音数据的情感分类标签样本,将所述情感特征向量样本输入到说话人分类模型以得到说话人分类信息;其中,所述情感特征分类模型根据所述情感分类标签样本与所述语音数据样本中所述情感信息之间的损失函数最小化进行权重更新,所述情感特征提取模型根据所述说话人分类信息与所述语音数据样本中所述说话人信息之间的损失函数最大值进行权重更新。
2.根据权利要求1所述的语音情感分类方法,其特征在于,所述对所述语音数据进行第一预处理,具体包括:
将所述语音数据标准化到预设的第一响度值;
按照预设的第二响度值裁剪标准化后的语音数据的首尾静默信息。
3.根据权利要求1所述的语音情感分类方法,其特征在于,所述对所述语音数据样本进行第二预处理,具体包括:
将所述语音数据样本标准化到预设的第一响度值;
按照预设的第二响度值裁剪标准化后的语音数据样本的首尾静默信息;
对裁剪后的语音数据样本进行数据增广。
4.根据权利要求1-3任一项所述的语音情感分类方法,其特征在于,所述方法还包括:
将第一预处理后的语音数据转换成二维语音数据,所述语音数据为一维语音数据;
将第二预处理后的语音数据样本转换成二维语音数据样本,所述语音数据样本为一维语音数据样本;
其中,情感特征提取模型或语者识别模型的语音输入数据包括一维语音数据和/或二维语音数据,情感特征提取模型或语者识别模型的样本输入数据包括一维语音数据样本和/或二维语音数据样本,所述语音输入数据与所述样本输入数据的数据类型相同。
5.一种语音合成方法,其特征在于,包括:
获取目标说话人的语音数据,并对所述语音数据进行清洗;
根据权利要求1-4任一项所述的语音情感分类方法,对清洗后的语音数据进行分类,得到情感分类后的语音数据;
将情感分类后的语音数据集训练情感语音合成模型,并根据获取的文字、情感标签及训练后的情感语音合成模型,合成所述文字对应的所述目标说话人的语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州赛灵力科技有限公司,未经广州赛灵力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211570941.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种曲轴热处理工艺及设备
- 下一篇:冗余并联长骨骨折复位机器人