[发明专利]基于频谱平移的情感说话人识别方法有效
申请号: | 200810162450.5 | 申请日: | 2008-11-25 |
公开(公告)号: | CN101419800A | 公开(公告)日: | 2009-04-29 |
发明(设计)人: | 杨莹春;吴朝晖;单振宇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00 |
代理公司: | 杭州天勤知识产权代理有限公司 | 代理人: | 胡红娟 |
地址: | 310027浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频谱 平移 情感 说话 识别 方法 | ||
1.一种基于频谱平移的情感说话人识别方法,其特征在于,包括如 下步骤:
(1)音频预处理
采集待测音频信号后,对音频信号依次进行采样量化、去零漂、预加 重和加哈明窗,得到加哈明窗后的语音帧;
所述的采样量化的步骤为:
A)用对采集得到的音频信号sa(t)进行滤波,滤波时奈奎斯特频率FN为4KHz,音频采样率F=2FN,滤波后得到数字音频信号的振幅序列
B)用脉冲编码调制对数字音频信号的振幅序列s(n)进行量化编码,得 到振幅序列的量化表示s’(n);
所述的去零漂的步骤为:
A)计算振幅序列的量化表示s’(n)的平均值
B)将振幅序列中的每个振幅值分别减去平均值得到去零漂后平均 值为0的振幅序列s”(n);
所述的预加重的步骤为:
将去零漂后的振幅序列s”(n)通过数字滤波器来增强信号的高频部分, 经预加重,语音信号的高频部分与中频部分的能量相当,得到预加重后的 振幅序列s”’(n);
所述的加哈明窗的步骤为:
A)把预加重后的振幅序列s”’(n)划分成若干音频帧Fm,每一音频帧 Fm的帧长为N、帧移量为T,且满足:
其中,F是音频采样率,单位为Hz;
B)计算哈明窗函数:
式中N为每一音频帧Fm的帧长;
C)利用公式F′m(n):F′m(n)=ωH(n)×Fm(n)对每一音频帧Fm加哈明窗,得 到加哈明窗后的音频帧F′m(n);
(2)频谱平移
加窗后的语音帧经过快速傅立叶变换得到频谱信号,采用频谱平移方 法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号,不 同的共振峰分布表示信号不同的情感类型;
所述的频谱平移步骤为:
对进行快速傅立叶变换后得到频谱信号fm进行平移,得到平移后频谱 信号f′m,平移后频谱信号f′m的能量谱E′m;
平移公式为:
E′m(f)=Em(f+h);
其中Em为频谱信号fm的能量谱,h表示频谱信号fm平移的距离,单位 为Hz,平移后的能量谱E′m在频率为fHz处的能量和原能量谱Em在频率 f+h Hz处相等;
(3)特征提取
采用美尔滤波器对频谱信号进行滤波,再采用离散余弦压缩得到语音 特征;
所述的美尔滤波器的构建步骤为:
A)计算梅尔域刻度:
p表示需计算的美尔刻度的个数;
B)计算梅尔域刻度Mi处对应的频谱刻度:
C)计算每个梅尔域通道φj上的对数能量谱Ej;
其中表示梅尔域通道φj的权重,其中k为滤波器的 个数;
(4)说话人识别
采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语 音频谱,并利用每种情感语音频谱建立说话人的相应情感下的模型;
将按步骤(1)~步骤(3)的流程提取的待测音频信号的语音特征, 计算待测音频信号在各种情感语音的说话人模型下的得分,采用最大得分 方法计算待测音频信号的得分,得到识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810162450.5/1.html,转载请声明来源钻瓜专利网。