[发明专利]识别语音信号中所承载的情感状态的方法和系统有效

申请号：	201110037314.5	申请日：	2011-02-09
公开（公告）号：	CN102637433A	公开（公告）日：	2012-08-15
发明（设计）人：	王彬;郭庆;李鹏;陆应亮;徐露;徐明星	申请（专利权）人：	富士通株式会社;清华大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/06
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	杜诚;李春晖
地址：	日本神***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	识别语音信号承载情感状态方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音信号识别技术，尤其涉及生成语音情感模型的方法和设备，以及识别语音信号中所承载的情感状态的方法和设备。

背景技术

语音是人类最重要的交流工具之一，可以承载和传递多种不同的信息，如语义内容、说话人身份、语言种类、情感状态等。语音情感识别是研究如何通过语音信号识别说话人的情感状态。通过获取语音信号中蕴含的丰富情感信息，可识别说话人通过语音表达的情感状态。

中国专利第200610097301.6号公开一种基于支持向量机的语音情感识别方法，提取基音频率轨迹、振幅、共振峰频率轨迹等声学特征；加入性别规整，对说话人性别的差异进行处理；采用支持向量机(SVM)训练情感识别模型，为每一种情感状态训练一个SVM模型，用最少支持向量在错分样本和算法复杂度之间获得识别结果。

非专利文献Hidden Markov model-based speech emotion recognition(B.Schuller，G.Rigoll，M.Lang，Proceedings of ICASSP 2003，HongKong，China，2003，401-405)研究了隐马尔科夫模型(HMM)在语音情感识别中的应用，对于基音频率和能量提取全局统计特征，利用单一状态的HMM进行情感识别，对于语音信号的短时特征，利用连续的HMM进行情感识别。

非专利文献Emotion recognition of speech in Mandarin based onneural network(Q.Wang，B.Xie，G.C.Chen，Proceedings of the 1stChinese Conference on Affective Computing and Intelligent Interaction(ACII)，Beijing，China，2003，185-190)研究了人工神经网络(ANN)在语音情感识别中的应用，提取了基音频率、能量、以及语速等特征，分别利用OCON、ACON、LVQ三种类型的ANN，对汉语情感语音进行情感识别。

发明内容

本发明的一个实施例是一种生成语音情感模型的方法，包括以下步骤：通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类，每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式；以及为每个子类中的情感语音样本生成一个语音情感模型，从而得到分别对应于n个子类的n个语音情感模型，n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态，其中n为大于或等于2的整数。

本发明的一个实施例是一种生成语音情感模型的设备，包括：无监督聚类部，通过无监督聚类将标注为同一情感状态的多个情感语音样本聚类成n个子类，每个子类对应于同一情感状态的不同情感表达方式中的一种情感表达方式；以及语音情感模型生成部，为每个子类中的情感语音样本生成一个语音情感模型，从而得到分别对应于n个子类的n个语音情感模型，n个语音情感模型用于识别语音信号所承载的不同情感表达方式的情感状态，其中n为大于或等于2的整数。

本发明的一个实施例是一种识别语音信号中所承载的情感状态的方法，包括以下步骤：将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配，以识别语音信号所承载的不同情感表达方式的每一个情感状态，其中，同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式，以及n为大于或等于2的整数。

本发明的一个实施例是一种识别语音信号中所承载的情感状态的设备，包括：语音情感识别部，将预处理后的语音信号与至少一个情感状态中的每一个情感状态的n个语音情感模型中的每一个分别进行相似度匹配，以识别语音信号所承载的不同情感表达方式的每一个情感状态，其中，同一情感状态的n个语音情感模型中的每一个对应于同一情感状态的不同情感表达方式中的一种情感表达方式，以及n为大于或等于2的整数。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出根据本发明的一个实施例的生成语音情感模型的设备的示例性结构的框图；

图2是示出根据本发明的一个实施例的语音情感模型生成部的示例性结构的框图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于富士通株式会社;清华大学，未经富士通株式会社;清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110037314.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]识别语音信号中所承载的情感状态的方法和系统有效

专利文献下载