[发明专利]一种融合长跨度情感历史的语音情感识别方法有效
申请号: | 201310481318.1 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103531207A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 陶建华;杨明浩;巢林林 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/08;G10L15/06 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 跨度 情感 历史 语音 识别 方法 | ||
技术领域
本发明属于语音信号处理领域,具体地涉及一种融合长跨度情感历史的语音情感识别方法,并以此来提高连续语音情感识别的精度。
背景技术
数十年来,国内外研究人员对语音情感识别进行了大量的研究工作,提出了许多用于情感识别的有效算法。这些方法从处理策略上可以分为基于静态分类器的检测方法和基于动态分类器的检测方法。基于静态分类器的检测方法,多利用支持向量机(SVM)、神经网络、Boosting等,且这类分类器多为判别式模型。由于具有较强的区分能力,因此广泛应用于情感状态识别领域,但这种方法忽略了相邻语音信号的情感状态之间的相互联系,也即忽视了情感历史在分类模型中的关键作用。情感状态是一个逐渐变化的、平滑的过程,有着很强的上下文相关性,充分考虑情感历史信息将有助于分类精度的提升。基于动态分类器的检测方法大都采用基于隐马尔科夫(HMM)的分类模型,HMM在序列上下文信息建模方面有着突出的优势,因而对于语音信号序列,能够较好的融合序列信号的上下文信息,融合一定的情感历史信息。然而,由于HMM属于生成式分类模型,其分类性能方面不如判别式分类器。同时,其不能进行长跨度的上下文信息建模,也即情感历史的融合范围有限,不能完全反应情感历史信息在情感识别中的关键作用。
本发明在基于静态分类器分类方法的基础上,为有效利用长跨度的情感状态历史信息,将广泛应用于情感识别领域的支持向量机算法引入,用于对序列中的上下文信息进行长跨度建模,融合语音信号序列中连续语音信号单元间的情感状态信息,实现连续语音情感信息的分类和识别。
发明内容
为了解决上述连续语音序列的情感信息识别问题,本发明提出一种融合长跨度情感历史的语音情感识别方法,在本发明的识别过程中,对语音信号的每个单元(如:单词级别)进行逐个识别,完成对语音情感状态的实时检测;在情感信息建模方面,采用的是PAD维度情感模型,在PAD维度空间中,包含愉悦度、激活度和优势度3个维度;在训练语料库中,对语音信号在三个维度上,分别进行人工标注,获得语音序列每个单元的维度值,由于这些维度值是连续的,在实际检测中,根据每个单元的维度值与训练库所有语料在该维度上的平均值的进行比较,将每个单元在各自维度上的维度值量化为+1、-1两个标签,大于平均值的标签为+1,小于平均值的标签为-1,在三个维度上分别进行正负极性检测。
本发明提出的一种融合长跨度情感历史的语音情感识别方法包括以下步骤:
(1)模型第一层将已输入的语音序列切分为独立的单元(如:单词级别、句子级别),并利用支持向量机分类器对这些单元分别进行情感状态的初步识别;
(2)模型第二层完成对每个单元的最终情感状态识别。通过对第一层识别结果加窗,利用支持向量机算法,将此单元向前(包括此单元本身)若干个单元在第一层的情感识别结果加以融合,并最终得到此单元的情感状态信息。重复此步骤以获得每个单元的最终情感状态。
本发明方法中两层支持向量机相串联的分类模型一方面通过支持向量机相串联,充分利用了支持向量机的强分类能力;另一方面,将广泛用于情感识别领域的支持向量机算法应用于序列上下文信息的融合中,用以融合长跨度的情感状态的历史变化信息。因而,本发明既充分利用了判别式分类器的强分类能力,又考虑了情感状态变化的动态变化特性。本发明具有操作简单、实时性好、识别精度高等优点,是一种用于连续语音情感状态分类和识别的使用技术。
附图说明
图1是本发明所提出的一种融合长跨度情感历史信息的语音情感识别方法的流程图;
图2是本发明支持向量机长跨度情感历史融合过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
图1是本发明所提出的一种融合长跨度情感历史信息的语音情感识别方法的流程图,如图1所示,所述融合长跨度情感历史的语音情感识别方法包括以下步骤:
步骤S1,输入待识别的语音序列,并利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别的语音段数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310481318.1/2.html,转载请声明来源钻瓜专利网。