[发明专利]语音情感识别设备和进行语音情感识别的方法有效
申请号: | 200910150458.4 | 申请日: | 2009-06-23 |
公开(公告)号: | CN101930735A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 王彬;郭庆;陆应亮;李鹏 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/02;G10L19/06 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情感 识别 设备 进行 方法 | ||
技术领域
本发明涉及语音识别技术。更具体地说,本发明涉及语音情感识别设备和方法。
背景技术
近年来,情感在人类的感知、决策等过程扮演着重要角色。长期以来,情感智能研究只存在于心理学和认知科学领域。近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题。这将大大地促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介,携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。
语音情感识别首先要解决的问题是情感状态的划分。已知有两种情感状态划分方法,即呈连续分布的情感状态和呈离散分布的情感状态。将人类情感划分为多个离散状态的方法由于其简化了情感模型,计算也较为简单,目前为止大多数研究采用的是这种方法。
关于情感的划分目前大多数研究者比较认可的基本情感为害怕,愤怒,悲伤,高兴,惊讶和厌恶。这种划分方法也在MPEG4标准中得到了应用。
在语音情感识别中,评价一段语音的情感首先要选取能够表现语音情感的特征。其次是根据所提取的特征为每一类情感进行建模。
已有技术中使用较多的特征主要是语音的韵律信息和频谱信息。韵律信息主要包括音高,语速和能量以及停顿;频谱信息目前用的最广泛的是Mel频率倒谱系数(MFCC)。线性预测系数(LPC)、共振峰及其相关特征也有部分应用。
在Schuller B,Rigoll G,Lang M.的“Hidden Markov model-basedspeech emotion recognition[C]”,Proceedings of the 2003 IEEEInternational Conference on Acoustics,Speech,& Signal Processing,HongKong,2003:401-404中,公开了一种基于隐马尔科夫模型(HMM)的情感识别方法,其中首先对输入语音进行分帧和特征提取。Schuller B等人认为韵律特征和频谱信息均能反映语音的情感,但频谱信息受音素影响较大,更容易被语句内容所影响,不利于建立语种无关的情感识别系统,因此采用了韵律特征。在全局韵律特征和时序短时韵律特征选取方面,由于全局韵律特征容易受到语义的影响,比如疑问句和陈述句相比,前者的基频偏差(pitch derivation)要远大于后者。考虑到上述因素,最终采用了时序的韵律特征。
在确定特征的基础上,采用HMM方法为每种情感建立模型,然后对输入语音进行识别。
在发明人为赵力等、名称为“一种基于支持向量机的语音情感识别方法”的中国专利申请CN200610097301.6中,以基音频率轨迹、振幅、共振峰频率轨迹为特征,并采用了性别规整对说话人性别的差异进行处理,最后为每一种情感训练一个支持向量机(SVM)模型,通过SVM模型对输入语音计算其情感。
在发明人为Valery A.Petrushin、名称为“System,method andarticle of manufacture for an emotion detection system”的美国专利US09/387,037中,首先对语音的基频,能量,语速,共振峰及其带宽等特征进行性能测试,通过一种特征选择算法筛选出对情感识别影响较大的特征集,共选出了12种与基频,语速,能量,共振峰,共振峰带宽相关的特征。然后对输入语音提取以上特征,与数据库中预存的每种情感的特征相比较,距离最近的情感模板可认为是输入语音的情感状态。
然而,除了根据训练出的模型进行情感识别之外,还需要利用其它信息来提高识别准确度。
发明内容
本发明的至少一个目的在于提供一种语音情感识别设备和方法,其能够至少克服上述现有技术的部分缺点和不足,以提高语音情感识别的准确度。
本发明的一个实施例是一种语音情感识别设备,包括:分析装置,其将输入语音的情感特征与多个情感模型进行匹配,以确定多个可能情感状态;概率计算装置,其根据说话人说话过程中情感状态之间的转换的条件概率知识,计算在说话人先前情感状态的条件下所述可能情感状态的最终概率;和情感判断装置,其从所述可能情感状态中选择最终概率最大的可能情感状态作为所述输入语音的情感状态。
在语音情感识别设备中,条件概率知识可以包括说话人在连续说话过程中相邻两句和/或三句话的情感状态之间转换的条件概率知识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910150458.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:输送带多极磁辊异步消磁装置
- 下一篇:一种无噪音喇叭