[发明专利]一种儿童语音情感识别方法有效
申请号: | 200810148844.5 | 申请日: | 2008-09-27 |
公开(公告)号: | CN101685634A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 李立志;韩笑蕾;贾晓光;郭亮杰;徐锡涛 | 申请(专利权)人: | 上海盛淘智能科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L13/02 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 | 代理人: | 孙皓晨;朱世定 |
地址: | 200092上海市杨浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 儿童 语音 情感 识别 方法 | ||
技术领域
本发明涉及语音识别,特别是涉及到基于儿童语音的语音情感识别方法。
背景技术
目前市场上的针对儿童的智能电子产品可以播放歌曲、语句也可以通过应 答模式进行简单的对话,但是这种电子产品和学习机所发出的声音都十分的机 械、单调和不自然,使得它们只能作为冰冷的工具,人性化功能较差,而不能 被孩子们完全接受,现有电子产品的应答模式也不能根据儿童的情绪变化和不 同性格的儿童做出相应的情感和风格的调整,只能用机械的声音播放预先设定 好的答案,因此人机交互效果不佳。
而当前针对语音情感识别的研究中虽然有在语音识别过程中进行情感识别 以及在语音合成中加入情感信息的方法,如申请号为01116524.3,名为“具有情 感的语音-语音翻译系统和方法”的中国专利公开了一种具有情感的语音-语音翻 译系统,包括:语音识别装置,用于对语言A的语音表示进行识别,形成语言A 的文本表示;机器翻译装置,用于将语言A的文本表示翻译成语言B的文本表示; 文本——语音生成装置,用于根据语言B的文本表示生成语言B的语音表示,所 述具有情感的语音——语音翻译系统的特征在于还包括:情感表述参数检测装 置,用于从语言A的语音表示中提取情感表述参数;以及情感表述参数映射装置, 用于将情感表述参数检测装置提取的情感表述参数从语言A映射到语言B,并将 映射结果作用于文本——语音生成装置,使其产生可以传达情感的语音输出。 但是,该方法只是从语言A中提取表示情感的参数并将之机械地映射到目标语言 B,而并不对语音所携带的情感信息的类型做出分析和判断。并且其使用的情感 识别方法是基于文本以及根据文本进行分词后对以词汇为单位的语音数据进行 判断。情感识别的方式很受局限,效果也很有限。
并且,语音识别中的分类技术中,如被广泛采用的各种基于神经网络的分 类器,其训练过程需要大量具有已知情感类别的语音样本,而现有技术中对于 训练样本的获取方式为令专业的演义人士按照预定情感类别进行“表演”,或 者在公众场所随机采集,再加上采集者对于发音者情感类别的判断。这种采样 方式一者使样本的分布广泛性受到很大影响,因为专业演员的数量有限,且故 意做作出来的“表演”与真实情感流露的语音是有差距的;二者上述语音采样 基本都取自成人,而成年人的感情比较复杂,往往在一句话中包涵了多种情感, 这些情感交织在一起,给分类造成困难,也不利于神经网络的训练。
再者,现有技术中在进行语音情感分析时,一般首先进行分帧假设,即采 用长度有限的窗函数来截取语音信号形成分析帧,从而将语音信号分割成一帧 帧加过窗的短时信号,然后再把每一个短时语音帧看作平稳随机过程,之后按 帧从数据区提取数据进行处理提取特征参数,从而得出由每一帧参数组成的语 音特征参数的时间序列。根据所述时间序列进行分类器训练或用于识别。基于 分帧假设的方法一方面增加了算法的复杂性,使识别速度缓慢,另一方面由于 每个个体的语速和发音特性之间的差别,基于时间窗分帧往往会破坏语音与语 义的整体配合关系,从而不利于语音识别,特别是不利于与语义相关度较大的 情感识别。
同时,现有技术中也并没有专门针对儿童特有的声音特点和感情特征进行 研究,并专门进行儿童语音情感分析和情感语音合成的方法。
发明内容
因此,本发明要解决的问题是:克服现有儿童智能电子产品的上述缺陷, 提供一种新的基于儿童语音的情感识别和合成技术,使得面向儿童的智能电子 产品可以具有高度的人性化、智能化,更容易被儿童所接受。
为解决上述问题,本发明提供了一种儿童语音情感识别方法,其包括训练 语音库建立、分类器训练和情感识别,其特征在于,所述分类器训练包括以下 步骤:
(S10)提取儿童语音情感特征,该步骤包括:
前端处理:对模拟语音信号进行包括采样和去噪等基本信号处理在内的预 处理;之后对经过预处理的情感语句做HHT变换,获得情感语音的Hilbert谱;
根据所述情感语音的Hilbert谱进行以下特征提取:音强特征提取、语调特 征提取、音色特征提取和节奏特征提取,获得情感特征;
(S20)对提取到的情感特征进行降维,获得不同情感空间的四元特征;
(S30)四元特征情感转换计算,对训练语音库样本集都做上述计算,得到 一系列的自然情感状态的四元特征在情感空间i上的投影,从而构成情感特征投 影集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海盛淘智能科技有限公司,未经上海盛淘智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810148844.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:PDP交互式透明电极结构
- 下一篇:旋转式压缩机