[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审

专利信息
申请号: 202111070401.0 申请日: 2021-09-13
公开(公告)号: CN113903327A 公开(公告)日: 2022-01-07
发明(设计)人: 谢景帆 申请(专利权)人: 北京卷心菜科技有限公司
主分类号: G10L15/00 分类号: G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100015 北京市朝阳区酒*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 神经网络 语音 环境 气氛 识别 方法
【权利要求书】:

1.一种基于深度神经网络的语音环境气氛识别方法,其特征在于包括以下模块:

模块1:获取音频信号并进行预处理;

将音频信号进行预处理得到声音数据;包括预加重、分帧、短时傅里叶变换;

将声音数据进行切分依据语音段的切分时间,对音频信号进行重采样;并给予重采样的结果进行语音特征抽取;借助文本情感语料库对说话人id和相应说话文字内容进行处理,获取到说话人的语义情感特征;依据语音特征和语义情感特征,给出当前气氛识别结果;

模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容;

模块2的为一种深度神经网络,该深度神经网络具体参数通过训练获得;

训练过程为:

2.1 获取训练数据集,

2.2 对训练数据中,说话人、文本内容进行分段标注;标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本

2.3 采用梯度下降方式进行拟合

使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布;

将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容;

模块3:将模块2输出的语音段进行语音特征提取;

依据语音段的切分时间,对原始音频信号进行重采样;并给予重采样的结果进行语音特征抽取;

模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征;

模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征;对于每一个说话人进行单独运算;模块3对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征;将情感特征输入时序神经网络,并获取到最新的情感特征结果;

模块5:依据模块2和模块3输出的语音特征和情感特征,进行气氛判断;

气氛使用一个实数值来进行度量;实数取值范围为[0,1],0表示非常轻松,1表示非常紧张;

模块5为一个卷积神经网络和时序循环神经网络相结合的深度神经网络,将语音特征和情感特征输入到模型中,通过卷积神经网络抽取深层次特征,再将抽取出来的特征输入到时序循环神经网络,输出对气氛的预测结果;在训练过程中通过这个数值和人工标记值的差距来进行梯度下降。

2.根据权利要求1所述的方法,其特征在于:

文本情感语料库描述了在不同语境下,各个词汇具有的不同的情感特征及相应强度;情感分类采用Parrott分类法,共115个类别;每个分类用长度为30的向量表示。

3.根据权利要求1所述的方法,其特征在于:

在重采样时,采用4KHz,每帧窗口为60ms;

梅尔倒谱系数提取:

梅尔倒谱系数为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分;

输出矩阵的格式:

每段最大长度为6秒,每帧窗口为60ms,最大帧数为100;

输出特征矩阵为 100 * 26 , 不足100帧,则补0。

4.根据权利要求1所述的方法,其特征在于:

对文本进行分词,去除掉停用词,对剩下的词在文本情感语本实施料库中进行查找;忽略不在语料库中的词;每段文字通常不超过30字;经过分词、去除停用词等操作后,有效词一般不超过20个,如果超过,则抛弃;

将每个有效词查找到的向量进行堆叠,形成一个20*30的二维矩阵;不足20个词的补0。

5.根据权利要求1所述的方法,其特征在于:

模块5中深度神经网络的描述

整个网络结构包括a) 针对音频特征的卷积神经网络b) 针对文本情感特征的卷积神经网络 c) 时序循环神经网络

4.1 针对音频特征的卷积神经网络

音频特征的输入为100 x 26的矩阵, 卷积核需要与输入特征等宽;

具体卷积核尺寸如下:;

卷积核为: 5个1x26,5个2x26, 3个4x26, 3个8x26,3个16x26,1个32*26;

所有卷积核padding为1,步长为1,卷积核个数为20个;

对应k x 26的卷积核,输出尺寸为(100-k +1) x 1,

使用同尺寸的最大池化,变为标量;

对全部20个卷积核输出的标量进行拼接,得到尺寸为1 x 20 的向量E1

此向量进行tanh激活层,结果为1 x 20 的向量E2

4.2 针对文本情感特征的卷积神经网络

文本情感特征的输入为20 x 30的矩阵, 卷积核需要与输入特征等宽;

具体卷积核尺寸如下:卷积核为: 5个1x30,5个2x30, 3个4x30, 3个8x30;

所有卷积核padding为1,步长为1,卷积核个数为16个;

对应k x 30的卷积核,输出尺寸为(20-k +1) x 1,

使用同尺寸的最大池化,变为标量;

对全部16个卷积核输出的标量进行拼接,得到尺寸为1 x 16 的向量F1

此向量进行tanh激活层,结果为1 x 16 的向量F2

4.3 联合音频特征和文本特征,计算气氛

对上述向量E2、F2进行水平拼接,作为联合特征;采用时序循环神经网络。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京卷心菜科技有限公司,未经北京卷心菜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111070401.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top