[发明专利]一种基于序列卷积的语音情感识别方法及装置在审
申请号: | 202011169102.8 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112489687A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 陈海波;其他发明人请求不公开姓名 | 申请(专利权)人: | 深兰人工智能芯片研究院(江苏)有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 张怀阳 |
地址: | 213161 江苏省常州市武进*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 卷积 语音 情感 识别 方法 装置 | ||
本发明公开了一种基于序列卷积的语音情感识别方法及装置,该方法包括获取待识别的语音信息,对语音信息进行提取得到所述语音信息的描述子向量,将描述子向量输入到序列卷积模型,得到语音信息的序列,对语音信息的序列进行处理,得到语音信息的序列特征以及局部特征,根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别,区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式,可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧,来减少信息的冗余性。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于序列卷积的语音情感识别方法及装置。
背景技术
语音情感识别的一个方案是采用卷积的方式提取局部特征,然后在时间维度上对得到的局部特征进行最大池化,最大池化后得到的特征便是神经网络所使用的语音序列的特征,最后利用该特征进行情感识别。这种方式得到的特征不具有时序特征。语音情感识别的另一方式就是将语音序列输入循环神经网络(一般使用LSTM等),然后使用循环神经网络的输出得到该语音序列的特征。循环神经网络多使用长短时间记忆网络(LSTM),该网络计算复杂,且对历史信息的掌握具有不可控性,当语音序列较长时,该网络可能丢失一些历史的记忆,进而影响对情感的识别。
发明内容
本发明实施例提供一种基于序列卷积的语音情感识别方法及装置,用以使得输出的语音序列的特征具有时序性,且提高语音情感识别的准确率。
第一方面,本发明实施例提供一种基于序列卷积的语音情感识别方法,包括:
获取待识别的语音信息;
对所述语音信息进行提取得到所述语音信息的描述子向量;
将所述描述子向量输入到序列卷积模型,得到所述语音信息的序列;
对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征;
根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。
上述技术方案中,通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别,区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式,可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧,来减少信息的冗余性。
可选的,所述对所述语音信息进行提取得到所述语音信息的描述子向量,包括:
以预设时长的滑窗在所述语音信息上沿时间轴滑动,把所述语音信息切分为具有重叠部分的音频段,得到所述语音信息的描述子向量。
可选的,所述对所述语音信息的序列进行处理,得到所述语音信息的序列特征以及局部特征,包括:
将所述语音信息的序列进行矩阵分割,得到多个子序列;
将所述多个子序列分别提取特征并进行特征合并,得到所述语音信息的序列特征;
将所述多个子序列分别输入到第一激活函数后进行池化处理,得到所述语音信息的局部特征。
可选的,所述根据所述语音信息的序列特征和局部特征识别所述语音信息的情感,包括:
将所述语音信息的序列特征和局部特征进行联合后得到联合特征;
将所述联合特征输入到第二激活函数中,得到所述语音信息的情感概率;
根据所述语音信息的情感概率,将最大情感概率对应的情感确定为所述语音信息的情感。
可选的,所述将所述语音信息的序列特征和局部特征进行联合后得到联合特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深兰人工智能芯片研究院(江苏)有限公司,未经深兰人工智能芯片研究院(江苏)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011169102.8/2.html,转载请声明来源钻瓜专利网。