[发明专利]基于情感补偿的声纹识别方法有效

申请号：	200710157132.5	申请日：	2007-12-05
公开（公告）号：	CN101226742A	公开（公告）日：	2008-07-23
发明（设计）人：	杨莹春;吴朝晖;潘纲	申请（专利权）人：	浙江大学
主分类号：	G10L17/00	分类号：	G10L17/00;G10L15/00;G10L15/06;G10L15/08
代理公司：	杭州九洲专利事务所有限公司	代理人：	陈继亮
地址：	310027浙江省杭州市西湖区浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于情感补偿声纹识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生物特征识别技术，主要是一种基于情感补偿的声纹识别方法。

背景技术

声纹识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。近十年来，声纹识别技术已取得巨大进展，但在应用方面仍面临一个巨大挑战：如何克服说话人自身状态的改变对系统识别性能的影响。随着数字娱乐的兴起、智能家电的逐步普及、以及计算的日趋泛在化，人机交互的友好性与自然性尤显重要，如何提高人机交互中声纹技术对用户的情绪状态变化的适应能力日益迫切，即要求处于自然的情感流露状态下的用户能被正确的识别。传统的声纹识别技术很少考虑由于行为的变化所带来的语音变化问题。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种情感补偿的思路，研究对用户情感变化鲁棒的基于情感补偿的声纹识别方法。

本发明解决其技术问题所采用的技术方案：这种基于情感补偿的声纹识别方法，所提出的情感补偿包括情感检测、特征补偿、情感拓展三块，拟依据情感检测技术计算语音情感因子，分别从特征与模型两个层面对情感变化所引起的语音变化进行补偿，最终提高声纹识别技术对情感变化的鲁棒性。

本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的情感检测主要用于检测语音特征相对于训练模型是否产生形变，并能根据语音特征产生形变的剧烈程度计算情感因子，以指导后续特征与模型补偿的方向与程度。所述的特征补偿为特征层对情感进行补偿的相关技术，主要依据情感因子对语音特征进行调理，使其符合原有模型。主要包括：情感弱化技术、情感规整技术、情感屏蔽技术。所述的情感拓展技术从模型层次进行补偿，在模型训练时，使声纹模型尽可能包容不同情感下的特征变化信息。主要涉及：基于情感变化规律的情感语料合成技术；个体声纹模型的增量式学习方法等。

本发明有益的效果是：突破现有的声纹识别技术未考虑声纹情感变化的不足，从特征和模型两个层面应对情感变化引起的语音变化，增强对语音情感漂移的抵抗力。特征层面通过情感弱化、规整和屏蔽的手段，将语音特征规范到训练模型的建模能力范围内，以达到抑制用户情感对识别性能影响的目的。模型层面采用情感变化规律进行情感语音合成的逆向途径获取大规模情感语音，从而大大拓展了声纹模型的建模信息，解决了情感数据获取的困难。

附图说明

图1是本发明的基于情感补偿的声纹识别方法框架图；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：

本发明的方法首先通过情感测技术检测情感语音的形变程度计算情感因子，然后在训练与识别两个阶段分别在模型层与特征层对情感所引起的语音变化进行补偿，包括：训练阶段采用情感拓展技术对声纹模型做拓广修整；识别阶段可选择采用情感弱化、规整、屏蔽技术对声纹特征进行规范化处理。最终提高声纹识别技术对情感变化的鲁棒性。

本发明的具体实施分为训练和识别两个阶段。以下分训练与测试两个阶段分别给出具体实施方式

一、训练阶段

训练阶段建立用户的声纹模型，分四步实施。

第一步、语音信号预处理

采用传统的语音信号预处理方法，包括采样与量化、预加重处理、加窗环节

第二步、特征提取

语音帧上的特征提取包括包括美尔倒谱系数、基频、时长、强度、声质量和元音共振峰等语音的声学与韵律特征。这些特征的提取过程不是本发明的部分，故不作赘述。

第三步、情感检测

所采用的语音特征包括美尔倒谱系数、基频、时长、强度、声质量和元音共振峰等语音的声学与韵律特征，拟从语音特征统计分析和模型匹配两条线来实现情感检测。

(1)语音特征统计分析：采用ANOVA(ANalysis Of VAriance)、MANOVA(MultivariateAnalysis of Variance)等统计分析方法分析不同情感下的语音特征的变化强弱，根据变化的强弱对特征进行归类并计算情感因子，实现情感检测；

(2)模型匹配：可采用诸如GMM(Gaussian Mixture Models)、SVM(Support VectorMachine)之类的各种统计模型对归类情感语音分别训练出不同归类情感的模型，由语音与模型的匹配得分来计算情感因子，从而实现情感检测。

第四步、情感拓展和模型训练