[发明专利]基于压缩感知的鲁棒性语音情感识别方法有效
申请号: | 201210551585.7 | 申请日: | 2012-12-18 |
公开(公告)号: | CN103021406A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 赵小明;张石清 | 申请(专利权)人: | 台州学院;赵小明;张石清 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L25/03;G10L25/63 |
代理公司: | 杭州赛科专利代理事务所 33230 | 代理人: | 曹绍文 |
地址: | 318000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 压缩 感知 鲁棒性 语音 情感 识别 方法 | ||
1.一种基于压缩感知的鲁棒性语音情感识别方法,其特征在于,该方法包含如下步骤:
产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果;
(1)产生含噪声的情感语音样本,包括:
将情感语音样本库的所有语音样本,分为训练样本和测试样本两部分,然后对每一个训练样本和测试样本都添加高斯白噪声,从而产生含噪声的情感语音样本;
(2)建立声学特征提取模块,包括:
将含噪声的情感语音样本进行声学特征提取,该声学特征提取模块包括三部分:韵律特征参数提取、音质特征参数提取、梅尔频率倒谱系数MFCC提取;
(2-1)韵律特征参数提取,包括:基频、振幅和发音持续时间;
(2-2)音质特征参数提取,包括:共振峰、频带能量分布、谐波噪声比和短时抖动参数;
(2-3)梅尔频率倒谱系数MFCC提取,包括:提取13维MFCC特征及其一阶和二阶导数参数,然后计算出它们的平均值和标准差;
(3)构建稀疏表示分类器模型,包括:
通过声学特征提取模块,每一个情感语音样本都对应着一个由提取的声学特征参数所构成的特征矢量;将所有情感语音样本所对应的特征矢量都输入到稀疏表示分类器中,用于构建稀疏表示分类器模型;
构建稀疏表示分类器的方法是,首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作为一组基,通过求解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类;
(4)输出语音情感识别结果,包括:
通过稀疏表示分类器的训练和测试,输出语音情感识别结果,情感识别测试中采用10次交叉检验技术,即所有语句被平分为10份,每次使用其中的9份数据用于训练,剩下的1份数据用于测试,这样的识别实验过程相应重复10次,最后取10次的平均值作为识别结果。
2.如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是:
所述的基频采用自相关法提取出情感语音的基频轨迹曲线,然后计算出该基频曲线的10个统计学参数,包括最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值、平均值、标准差、平均绝对斜度;
所述的振幅采用平方求和方法求取,提取振幅相关的9个统计学参数,包括平均值、标准差、最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值;
所述的发音持续时间:发音持续时间表征不同情感语音的说话时间构造上的差异性,提取发音持续时间相关的参数6个,包括发音持续总时间、有声发音持续时间、无声发音持续时间、有声与无声时间的比值、有声与发音总时间的比值、无声与发音总时间的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于台州学院;赵小明;张石清,未经台州学院;赵小明;张石清许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210551585.7/1.html,转载请声明来源钻瓜专利网。