[发明专利]一种语音情感分类及合成方法、系统、装置及存储介质在审

申请号：	202211570941.X	申请日：	2022-12-08
公开（公告）号：	CN116013370A	公开（公告）日：	2023-04-25
发明（设计）人：	叶俊杰;凌瑞欣;王伦基;莫世玉;付玟	申请（专利权）人：	广州赛灵力科技有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30;G10L25/03;G10L25/24;G10L13/047;G10L13/04;G10L13/033
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	尹长斌
地址：	510663 广东省广州市黄埔***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音情感分类合成方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音情感分类方法，其特征在于，包括：

获取语音数据，并对所述语音数据进行第一预处理；

将第一预处理后的语音数据输入到训练好的情感特征提取模型以得到情感特征向量，以及将第一预处理后的语音数据输入到训练好的语者识别模型以得到说话人特征向量；

将所述情感特征向量及所述说话人特征向量进行融合，并将融合后的特征向量输入到情感特征分类模型以得到所述语音数据的情感分类；

所述情感特征提取模型的训练过程如下：

获取若干个说话人的语音数据样本，并对所述语音数据样本进行第二预处理，所述语音数据样本包含情感信息和说话人信息；

将第二处理后的语音数据样本输入到所述情感特征提取模型以得到情感特征向量样本，以及将第二处理后的语音数据样本输入到所述语者识别模型以得到说话人特征向量样本，并将所述说话人特征向量样本输入到所述情感特征提取模型，将所述情感特征向量样本及所述说话人特征向量样本进行融合，并将融合后的特征向量样本输入到所述情感分类特征模型以得到所述语音数据的情感分类标签样本，将所述情感特征向量样本输入到说话人分类模型以得到说话人分类信息；其中，所述情感特征分类模型根据所述情感分类标签样本与所述语音数据样本中所述情感信息之间的损失函数最小化进行权重更新，所述情感特征提取模型根据所述说话人分类信息与所述语音数据样本中所述说话人信息之间的损失函数最大值进行权重更新。

2.根据权利要求1所述的语音情感分类方法，其特征在于，所述对所述语音数据进行第一预处理，具体包括：

将所述语音数据标准化到预设的第一响度值；

按照预设的第二响度值裁剪标准化后的语音数据的首尾静默信息。

3.根据权利要求1所述的语音情感分类方法，其特征在于，所述对所述语音数据样本进行第二预处理，具体包括：

将所述语音数据样本标准化到预设的第一响度值；

按照预设的第二响度值裁剪标准化后的语音数据样本的首尾静默信息；

对裁剪后的语音数据样本进行数据增广。

4.根据权利要求1-3任一项所述的语音情感分类方法，其特征在于，所述方法还包括：

将第一预处理后的语音数据转换成二维语音数据，所述语音数据为一维语音数据；

将第二预处理后的语音数据样本转换成二维语音数据样本，所述语音数据样本为一维语音数据样本；

其中，情感特征提取模型或语者识别模型的语音输入数据包括一维语音数据和/或二维语音数据，情感特征提取模型或语者识别模型的样本输入数据包括一维语音数据样本和/或二维语音数据样本，所述语音输入数据与所述样本输入数据的数据类型相同。

5.一种语音合成方法，其特征在于，包括：