[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审

申请号：	202111070401.0	申请日：	2021-09-13
公开（公告）号：	CN113903327A	公开（公告）日：	2022-01-07
发明（设计）人：	谢景帆	申请（专利权）人：	北京卷心菜科技有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100015 北京市朝阳区酒***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络语音环境气氛识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度神经网络的语音环境气氛识别方法，其特征在于包括以下模块：

模块1：获取音频信号并进行预处理；

将音频信号进行预处理得到声音数据；包括预加重、分帧、短时傅里叶变换；

将声音数据进行切分依据语音段的切分时间，对音频信号进行重采样；并给予重采样的结果进行语音特征抽取；借助文本情感语料库对说话人id和相应说话文字内容进行处理，获取到说话人的语义情感特征；依据语音特征和语义情感特征，给出当前气氛识别结果；

模块2：将模块1输出的声音数据进行切分，得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容；

模块2的为一种深度神经网络，该深度神经网络具体参数通过训练获得；

训练过程为：

2.1 获取训练数据集，

2.2 对训练数据中，说话人、文本内容进行分段标注；标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本

2.3 采用梯度下降方式进行拟合

使用过程中，将声音数据输入给训练好的深度神经网络模型，该模型给出对每个时间步的概率预测结果，即每个时间步所属说话人的概率分布、说话内容的概率分布；

将声音数据的全部时间步输出综合起来，按照说话人的连续说话进行切分，生成各段起始截止时间，各段的说话人、各段的文本内容；

模块3：将模块2输出的语音段进行语音特征提取；

依据语音段的切分时间，对原始音频信号进行重采样；并给予重采样的结果进行语音特征抽取；

模块4：依据文本情感语料库，将模块2输出的各个说话人的文本内容编码为语义情感特征；

模块4为具有记忆功能的时序神经网络，记忆有一定时序限度内的情感特征；对于每一个说话人进行单独运算；模块3对最新文本内容进行分词，去停用词，依据文本情感语料库将词语转换为情感特征；将情感特征输入时序神经网络，并获取到最新的情感特征结果；

模块5：依据模块2和模块3输出的语音特征和情感特征，进行气氛判断；

气氛使用一个实数值来进行度量；实数取值范围为[0,1]，0表示非常轻松，1表示非常紧张；

模块5为一个卷积神经网络和时序循环神经网络相结合的深度神经网络，将语音特征和情感特征输入到模型中，通过卷积神经网络抽取深层次特征，再将抽取出来的特征输入到时序循环神经网络，输出对气氛的预测结果；在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。

2.根据权利要求1所述的方法，其特征在于：

文本情感语料库描述了在不同语境下，各个词汇具有的不同的情感特征及相应强度；情感分类采用Parrott分类法，共115个类别；每个分类用长度为30的向量表示。

3.根据权利要求1所述的方法，其特征在于：

在重采样时，采用4KHz,每帧窗口为60ms；

梅尔倒谱系数提取：

梅尔倒谱系数为26维度：12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分；

输出矩阵的格式：

每段最大长度为6秒，每帧窗口为60ms，最大帧数为100；

输出特征矩阵为 100 * 26 , 不足100帧，则补0。

4.根据权利要求1所述的方法，其特征在于：

对文本进行分词，去除掉停用词，对剩下的词在文本情感语本实施料库中进行查找；忽略不在语料库中的词；每段文字通常不超过30字；经过分词、去除停用词等操作后，有效词一般不超过20个，如果超过，则抛弃；

将每个有效词查找到的向量进行堆叠，形成一个20*30的二维矩阵；不足20个词的补0。

5.根据权利要求1所述的方法，其特征在于：

模块5中深度神经网络的描述

整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络

4.1 针对音频特征的卷积神经网络

音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽；

具体卷积核尺寸如下：；

卷积核为： 5个1x26，5个2x26， 3个4x26， 3个8x26，3个16x26，1个32*26；

所有卷积核padding为1，步长为1，卷积核个数为20个；

对应k x 26的卷积核，输出尺寸为(100-k +1) x 1,

使用同尺寸的最大池化，变为标量；

对全部20个卷积核输出的标量进行拼接，得到尺寸为1 x 20 的向量E₁；

此向量进行tanh激活层，结果为1 x 20 的向量E₂；

4.2 针对文本情感特征的卷积神经网络

文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽；

具体卷积核尺寸如下：卷积核为： 5个1x30，5个2x30， 3个4x30， 3个8x30；

所有卷积核padding为1，步长为1，卷积核个数为16个；

对应k x 30的卷积核，输出尺寸为(20-k +1) x 1,

使用同尺寸的最大池化，变为标量；

对全部16个卷积核输出的标量进行拼接，得到尺寸为1 x 16 的向量F₁；

此向量进行tanh激活层，结果为1 x 16 的向量F₂；

4.3 联合音频特征和文本特征，计算气氛

对上述向量E₂、F₂进行水平拼接，作为联合特征；采用时序循环神经网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京卷心菜科技有限公司，未经北京卷心菜科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111070401.0/1.html，转载请声明来源钻瓜专利网。

上一篇：基于深度强化学习的贴片机贴装调度模型训练方法
下一篇：一种自动化部署方法、装置及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审

专利文献下载