[发明专利]基于巴氏距离最优小波包分解的语音情感特征提取方法有效

申请号：	201310168156.6	申请日：	2013-05-06
公开（公告）号：	CN103236258A	公开（公告）日：	2013-08-07
发明（设计）人：	李悦;章国宝;黄永明	申请（专利权）人：	东南大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L25/63
代理公司：	江苏永衡昭辉律师事务所 32250	代理人：	王剑
地址：	210096***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于距离最优波包分解语音情感特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于巴氏距离最优小波包分解的语音情感特征提取方法，其特征在于，包括以下步骤：

步骤1：接收情感语音片段输入；

步骤2：将情感语音片段数字化以提供数字语音信号X；

步骤3：对数字语音信号X进行预处理，得到有效语音帧集合；

步骤4：构造巴氏距离最优小波包基；

步骤5：利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解，得到各有效语音帧的小波包系数；

步骤6：利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。

2.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法，其特征是，步骤3中所述的预处理包括如下步骤：

步骤3.1：对数字语音信号X按下式进行预加重，得到预加重后的语音信号

X‾(n‾)=X(n‾)-0.9375X(n‾-1),]]>0≤n‾≤N‾-1---(1)]]>

其中表示数字语音信号X的离散点序号，为数字语音信号X的长度，和分别表示数字语音信号X在第和个离散点上的值，表示预加重后的语音信号在第个离散点上的值，X(-1)=0；

步骤3.2：采用交叠分段的方法对预加重后的语音信号进行分帧，前一帧起点与后一帧起点的距离称为帧移，此处帧移取8ms，即在采样率F_s=16kHz下取128点，每一帧长取16ms，即取256点，经过分帧得到语音帧集合{x‾k′}1≤k′≤K′:]]>

x‾k′(n)=X‾(n+128(k′-1))]]>n≤255,1≤k′≤K′---(2)]]>

其中为语音帧集合中的第k'个语音帧，n表示语音帧离散点序号，k'为语音帧序号，K'为语音帧总帧数，且满足：

表示向下取整；

步骤3.3：对各语音帧1≤k'≤K'，选择窗口长度为256点的汉明窗w进行加窗处理，得到加窗语音帧x_k'，加窗语音帧x_k'为：

xk′(n)=x‾k′(n)w(n),]]>0≤n≤255,1≤k′≤K′---(4)]]>

其中x_k'(n)、w(n)分别表示x_k'、w在第n个离散点上的值，窗口长度为256点的汉明窗函数为：

w(n)=0.54-0.46cos(2πn255),]]>0≤n≤255---(5)]]>

步骤3.4：采用公知的能量过零率双门限判决法完成端点检测，具体步骤如下：

步骤3.4.1：对各加窗语音帧x_k'，1≤k'≤K'，计算短时能量E_k'和短时过零率Z_k'：

Ek′=Σn=0255xk′2(n)1≤k′≤K′---(6)]]>

Zk′=12Σn=1255|sgn[xk′(n)]-sgn[xk′(n-1)]|---(7)]]>

其中E_k'表示加窗语音帧x_k'的短时能量，Z_k'表示x_k'的短时过零率，x_k'(n)为加窗语音帧x_k'在第n个采样点上的值，x_k'(n-1)为x_k'在第n-1个采样点上的值，sgn[x_k'(n)]、sgn[x_k'(n-1)]分别为x_k'(n)、x_k'(n-1)的符号函数，即：

sgn[x]=1x≥0-1x<0---(8)]]>

步骤3.4.2：确定短时能量阈值τ_E和短时过零率阈值τ_Z：

τE=1K′Σk′=1K′Ek′---(9)]]>

τZ=0.1K′Σk′=1K′Zk′---(10)]]>

其中K'为语音帧总帧数；

步骤3.4.3：对各加窗语音帧首先用短时能量作第一级判别，将短时能量值大于阈值τ_E的加窗语音帧标记为有效语音帧，将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧，将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧，然后用短时过零率作第二级判别，即以起始帧为起点按照帧序号由大到小的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别，将短时过零率大于阈值τ_Z的加窗语音帧标记为有效语音帧，将两级判别后得到的有效语音帧集合记为{s_k}_1≤k≤K，其中k为有效语音帧序号，K为有效语音帧总帧数，s_k为有效语音帧集合中的第k个有效语音帧。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310168156.6/1.html，转载请声明来源钻瓜专利网。

上一篇：包含掺杂稀土硅酸盐的发光材料
下一篇：制造对基材表面具有改善粘着作用的经硫化聚硅氧烷橡胶组合物层的方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于巴氏距离最优小波包分解的语音情感特征提取方法有效

专利文献下载