[发明专利]一种基于序列卷积的语音情感识别方法及装置在审

申请号：	202011169102.8	申请日：	2020-10-28
公开（公告）号：	CN112489687A	公开（公告）日：	2021-03-12
发明（设计）人：	陈海波;其他发明人请求不公开姓名	申请（专利权）人：	深兰人工智能芯片研究院（江苏）有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30;G06N3/04;G06N3/08
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	张怀阳
地址：	213161 江苏省常州市武进***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于序列卷积语音情感识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于序列卷积的语音情感识别方法及装置，该方法包括获取待识别的语音信息，对语音信息进行提取得到所述语音信息的描述子向量，将描述子向量输入到序列卷积模型，得到语音信息的序列，对语音信息的序列进行处理，得到语音信息的序列特征以及局部特征，根据语音信息的序列特征和局部特征识别所述语音信息的情感。通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别，区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式，可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧，来减少信息的冗余性。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于序列卷积的语音情感识别方法及装置。

背景技术

语音情感识别的一个方案是采用卷积的方式提取局部特征，然后在时间维度上对得到的局部特征进行最大池化，最大池化后得到的特征便是神经网络所使用的语音序列的特征，最后利用该特征进行情感识别。这种方式得到的特征不具有时序特征。语音情感识别的另一方式就是将语音序列输入循环神经网络(一般使用LSTM等)，然后使用循环神经网络的输出得到该语音序列的特征。循环神经网络多使用长短时间记忆网络(LSTM)，该网络计算复杂，且对历史信息的掌握具有不可控性，当语音序列较长时，该网络可能丢失一些历史的记忆，进而影响对情感的识别。

发明内容

本发明实施例提供一种基于序列卷积的语音情感识别方法及装置，用以使得输出的语音序列的特征具有时序性，且提高语音情感识别的准确率。

第一方面，本发明实施例提供一种基于序列卷积的语音情感识别方法，包括：

获取待识别的语音信息；

对所述语音信息进行提取得到所述语音信息的描述子向量；

将所述描述子向量输入到序列卷积模型，得到所述语音信息的序列；

对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征；

根据所述语音信息的序列特征和局部特征识别所述语音信息的情感。

上述技术方案中，通过并列地使用局部特征和序列特征的方式来进行语音情感特征的识别，区别于传统上单独地使用局部特征或在局部特征的基础上获得时序特征来进行情感的识别方式，可以提高识别准确率。同时使用序列卷积的步长的设置来实现语音情感识别中的跳帧，来减少信息的冗余性。

可选的，所述对所述语音信息进行提取得到所述语音信息的描述子向量，包括：

以预设时长的滑窗在所述语音信息上沿时间轴滑动，把所述语音信息切分为具有重叠部分的音频段，得到所述语音信息的描述子向量。

可选的，所述对所述语音信息的序列进行处理，得到所述语音信息的序列特征以及局部特征，包括：