[发明专利]一种基于语音的情绪识别方法有效

申请号：	201910478640.6	申请日：	2019-06-03
公开（公告）号：	CN110223714B	公开（公告）日：	2021-08-03
发明（设计）人：	伍林;尹朝阳	申请（专利权）人：	杭州哲信信息技术有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/30;G10L25/03
代理公司：	北京君泊知识产权代理有限公司 11496	代理人：	王程远
地址：	310020 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于语音的情绪识别方法，包括对语音进行分帧处理，提取每一帧的特征向量；将每一帧的特征向量输入到深度学习时序模型中，输出帧级特征；将帧级特征与深度学习时序模型的前一时刻的隐含状态输入到注意力模型，经过学习输出段级特征；将段级特征输入到注意力模型形成最终发音级别的表征；最后输入到softmax层，得到预测情绪的概率值，从而识别情绪。本发明的有益效果为：通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征，同时引入多个注意力机制来有效得选择关键特征，更有利于情绪的识别，且使用该方法不仅能提取帧级语音特征，还能提取段级语音特征，从而可有效提高情绪识别的准确性。
搜索关键词：	一种基于语音情绪识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语音的情绪识别方法，其特征在于，该方法包括以下步骤：步骤1：对语音进行分帧处理，并对每一帧提取特征，得到每一帧的特征向量，v_n表示第n帧的特征向量；步骤2：将步骤1得到的每一帧的特征向量v_n输入到第一层深度学习时序模型中，通过第一层深度学习时序模型学习帧与帧之间的关联，并每隔k帧输出帧级特征y_i，得到M个时刻的帧级特征y_i，y_i表示第一层深度学习时序模型第i时刻输出的帧级向量；步骤3：将步骤2得到的t时刻的帧级特征y_i与第二层深度学习时序模型的t‑1时刻的隐含状态h_t‑1输入到第一注意力模型，得到t时刻第二层深度学习时序模型的输入z_t，经过M个时刻的学习，输出段级特征s_t，s_t表示第二层深度学习时序模型第t时刻输出的段级向量；步骤4：将步骤3得到的段级特征s_t输入到第二注意力模型形成最终发音级别的表征；步骤5：将步骤4得到的发音级别的表征输入到softmax层，得到预测情绪的概率值，从而识别情绪。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州哲信信息技术有限公司，未经杭州哲信信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910478640.6/，转载请声明来源钻瓜专利网。

上一篇：声音事件检测模型训练方法及声音事件检测方法
下一篇：一种基于声音事件检测的独居老人家中活动估计方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语音的情绪识别方法有效

专利文献下载