[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审
申请号: | 202111070401.0 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113903327A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 谢景帆 | 申请(专利权)人: | 北京卷心菜科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100015 北京市朝阳区酒*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 语音 环境 气氛 识别 方法 | ||
1.一种基于深度神经网络的语音环境气氛识别方法,其特征在于包括以下模块:
模块1:获取音频信号并进行预处理;
将音频信号进行预处理得到声音数据;包括预加重、分帧、短时傅里叶变换;
将声音数据进行切分依据语音段的切分时间,对音频信号进行重采样;并给予重采样的结果进行语音特征抽取;借助文本情感语料库对说话人id和相应说话文字内容进行处理,获取到说话人的语义情感特征;依据语音特征和语义情感特征,给出当前气氛识别结果;
模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容;
模块2的为一种深度神经网络,该深度神经网络具体参数通过训练获得;
训练过程为:
2.1 获取训练数据集,
2.2 对训练数据中,说话人、文本内容进行分段标注;标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本
2.3 采用梯度下降方式进行拟合
使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布;
将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容;
模块3:将模块2输出的语音段进行语音特征提取;
依据语音段的切分时间,对原始音频信号进行重采样;并给予重采样的结果进行语音特征抽取;
模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征;
模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征;对于每一个说话人进行单独运算;模块3对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征;将情感特征输入时序神经网络,并获取到最新的情感特征结果;
模块5:依据模块2和模块3输出的语音特征和情感特征,进行气氛判断;
气氛使用一个实数值来进行度量;实数取值范围为[0,1],0表示非常轻松,1表示非常紧张;
模块5为一个卷积神经网络和时序循环神经网络相结合的深度神经网络,将语音特征和情感特征输入到模型中,通过卷积神经网络抽取深层次特征,再将抽取出来的特征输入到时序循环神经网络,输出对气氛的预测结果;在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。
2.根据权利要求1所述的方法,其特征在于:
文本情感语料库描述了在不同语境下,各个词汇具有的不同的情感特征及相应强度;情感分类采用Parrott分类法,共115个类别;每个分类用长度为30的向量表示。
3.根据权利要求1所述的方法,其特征在于:
在重采样时,采用4KHz,每帧窗口为60ms;
梅尔倒谱系数提取:
梅尔倒谱系数为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分;
输出矩阵的格式:
每段最大长度为6秒,每帧窗口为60ms,最大帧数为100;
输出特征矩阵为 100 * 26 , 不足100帧,则补0。
4.根据权利要求1所述的方法,其特征在于:
对文本进行分词,去除掉停用词,对剩下的词在文本情感语本实施料库中进行查找;忽略不在语料库中的词;每段文字通常不超过30字;经过分词、去除停用词等操作后,有效词一般不超过20个,如果超过,则抛弃;
将每个有效词查找到的向量进行堆叠,形成一个20*30的二维矩阵;不足20个词的补0。
5.根据权利要求1所述的方法,其特征在于:
模块5中深度神经网络的描述
整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络
4.1 针对音频特征的卷积神经网络
音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:;
卷积核为: 5个1x26,5个2x26, 3个4x26, 3个8x26,3个16x26,1个32*26;
所有卷积核padding为1,步长为1,卷积核个数为20个;
对应k x 26的卷积核,输出尺寸为(100-k +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部20个卷积核输出的标量进行拼接,得到尺寸为1 x 20 的向量E1;
此向量进行tanh激活层,结果为1 x 20 的向量E2;
4.2 针对文本情感特征的卷积神经网络
文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽;
具体卷积核尺寸如下:卷积核为: 5个1x30,5个2x30, 3个4x30, 3个8x30;
所有卷积核padding为1,步长为1,卷积核个数为16个;
对应k x 30的卷积核,输出尺寸为(20-k +1) x 1,
使用同尺寸的最大池化,变为标量;
对全部16个卷积核输出的标量进行拼接,得到尺寸为1 x 16 的向量F1;
此向量进行tanh激活层,结果为1 x 16 的向量F2;
4.3 联合音频特征和文本特征,计算气氛
对上述向量E2、F2进行水平拼接,作为联合特征;采用时序循环神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京卷心菜科技有限公司,未经北京卷心菜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111070401.0/1.html,转载请声明来源钻瓜专利网。