[发明专利]基于巴氏距离最优小波包分解的语音情感特征提取方法有效
申请号: | 201310168156.6 | 申请日: | 2013-05-06 |
公开(公告)号: | CN103236258A | 公开(公告)日: | 2013-08-07 |
发明(设计)人: | 李悦;章国宝;黄永明 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/63 |
代理公司: | 江苏永衡昭辉律师事务所 32250 | 代理人: | 王剑 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 距离 最优 波包 分解 语音 情感 特征 提取 方法 | ||
1.一种基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:
步骤1:接收情感语音片段输入;
步骤2:将情感语音片段数字化以提供数字语音信号X;
步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;
步骤4:构造巴氏距离最优小波包基;
步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;
步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征。
2.根据权利要求1所述的基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征是,步骤3中所述的预处理包括如下步骤:
步骤3.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤3.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合
其中为语音帧集合中的第k'个语音帧,n表示语音帧离散点序号,k'为语音帧序号,K'为语音帧总帧数,且满足:
表示向下取整;
步骤3.3:对各语音帧1≤k'≤K',选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk',加窗语音帧xk'为:
其中xk'(n)、w(n)分别表示xk'、w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
步骤3.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤3.4.1:对各加窗语音帧xk',1≤k'≤K',计算短时能量Ek'和短时过零率Zk':
其中Ek'表示加窗语音帧xk'的短时能量,Zk'表示xk'的短时过零率,xk'(n)为加窗语音帧xk'在第n个采样点上的值,xk'(n-1)为xk'在第n-1个采样点上的值,sgn[xk'(n)]、sgn[xk'(n-1)]分别为xk'(n)、xk'(n-1)的符号函数,即:
步骤3.4.2:确定短时能量阈值τE和短时过零率阈值τZ:
其中K'为语音帧总帧数;
步骤3.4.3:对各加窗语音帧首先用短时能量作第一级判别,将短时能量值大于阈值τE的加窗语音帧标记为有效语音帧,将帧序号最小的有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即以起始帧为起点按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值τZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310168156.6/1.html,转载请声明来源钻瓜专利网。