[发明专利]一种基于语音的情绪识别方法有效
申请号: | 201910478640.6 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110223714B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 伍林;尹朝阳 | 申请(专利权)人: | 杭州哲信信息技术有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 王程远 |
地址: | 310020 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音的情绪识别方法,包括对语音进行分帧处理,提取每一帧的特征向量;将每一帧的特征向量输入到深度学习时序模型中,输出帧级特征;将帧级特征与深度学习时序模型的前一时刻的隐含状态输入到注意力模型,经过学习输出段级特征;将段级特征输入到注意力模型形成最终发音级别的表征;最后输入到softmax层,得到预测情绪的概率值,从而识别情绪。本发明的有益效果为:通过使用分层式深度学习时序模型结构来提取语音中不同层次的特征,同时引入多个注意力机制来有效得选择关键特征,更有利于情绪的识别,且使用该方法不仅能提取帧级语音特征,还能提取段级语音特征,从而可有效提高情绪识别的准确性。 | ||
搜索关键词: | 一种 基于 语音 情绪 识别 方法 | ||
【主权项】:
1.一种基于语音的情绪识别方法,其特征在于,该方法包括以下步骤:步骤1:对语音进行分帧处理,并对每一帧提取特征,得到每一帧的特征向量,vn表示第n帧的特征向量;步骤2:将步骤1得到的每一帧的特征向量vn输入到第一层深度学习时序模型中,通过第一层深度学习时序模型学习帧与帧之间的关联,并每隔k帧输出帧级特征yi,得到M个时刻的帧级特征yi,yi表示第一层深度学习时序模型第i时刻输出的帧级向量;步骤3:将步骤2得到的t时刻的帧级特征yi与第二层深度学习时序模型的t‑1时刻的隐含状态ht‑1输入到第一注意力模型,得到t时刻第二层深度学习时序模型的输入zt,经过M个时刻的学习,输出段级特征st,st表示第二层深度学习时序模型第t时刻输出的段级向量;步骤4:将步骤3得到的段级特征st输入到第二注意力模型形成最终发音级别的表征;步骤5:将步骤4得到的发音级别的表征输入到softmax层,得到预测情绪的概率值,从而识别情绪。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州哲信信息技术有限公司,未经杭州哲信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910478640.6/,转载请声明来源钻瓜专利网。