[发明专利]一种基于长时帧背景噪声估计的语音情感特征提取方法在审

申请号：	201810017241.5	申请日：	2018-01-09
公开（公告）号：	CN108364641A	公开（公告）日：	2018-08-03
发明（设计）人：	黄永明;田可心;马自应	申请（专利权）人：	东南大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L21/02;G10L21/0216;G10L25/18;G10L25/21;G10L25/24;G10L25/45;G10L25/63
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音情感语音信号背景噪声估计非对称噪声噪声鲁棒性特征能量特征提取噪声补偿小波包长时频谱质心加权噪声分解表征语音情感信息特征识别提取特征鲁棒性识别率组频带减小
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，该方法包括以下步骤：在麦克风里输入语音信号后，

步骤1：对输入的语音信号进行预处理，得到有效语音帧集合；

步骤2：对有效语音帧集合中的各语音帧s_k进行小波包分解，得到小波包树并对全体叶节点进行频率排序，得到小波包系数集合其中为最优小波包树，j是语音信号2倍采样的次数，p是小波包节点的序号，表示排序后小波包树的节点序列；

步骤3：计算语音帧s_k在各个子频带的能量分量E_i：

步骤4：计算子频带长时帧长能量

其中x表示语音帧序号，i表示子频带序号，参数M＝2；

步骤5：利用非对称噪声抑制进行噪声补偿；

步骤6：谱权重平滑化；

步骤7：采用自回归谱估计方法对语音帧s_k在各个子频带内的功率谱P_i(f)进行估计；

步骤8：计算语音帧在各子频带内的子带频谱质心C_i；

其中，λ是控制功率谱幅值动态范围的控制因子；

步骤9：由子带频谱质心计算权重w_i,i＝1,2,…,I：

步骤10：用权重w_i,i＝1,2,…,I对相应子频带的对数子带能量进行加权，得到加权的子带能量WL_i：

WL_i＝w_i·lg(T[x,i])

步骤11：对加权子带能量WL_i进行离散余弦变换，得到L阶的子带频谱质心加权的噪声鲁棒的小波包倒谱系数LW-WPCC：

其中l是小波包倒谱系数LW-WPCC的阶次序号；

最后将语音帧的对数能量作为0阶LW-WPCC系数，与所提取的L阶LW-WPCC特征共同构成(L+1)维的特征向量。

2.根据权利要求1所述的长时帧背景噪声估计的噪声鲁棒语音情感特征提取方法，其特征在于，所述步骤1中的预处理包括如下步骤：

步骤1.1：根据下式对数字语音信号X按下式进行预加重，得到预加重后的语音信号

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)＝0；

步骤1.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s＝16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合所述语音帧集合中第k'个语音帧的第n个离散点的数据为：

其中为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：

表示向下取整；

步骤1.3：对各语音帧1≤k'≤K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k'为：

其中x_k'(n)、w(n)分别表示x_k'、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

步骤1.4：对各加窗语音帧x_k'，1≤k'≤K'，计算短时能量E_k'和短时过零率Z_k'：

其中E_k'表示加窗语音帧x_k'的短时能量，Z_k'表示x_k'的短时过零率，x_k'(n)为加窗语音帧x_k'在第n个采样点上的值，x_k'(n-1)为x_k'在第n-1个采样点上的值，sgn[x_k'(n)]、sgn[x_k'(n-1)]分别为x_k'(n)、x_k'(n-1)的符号函数，即：