[发明专利]一种用于语音情感识别的新特征提取方法在审
申请号: | 201910168424.1 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109767789A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 关昊天;张林娟 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03 |
代理公司: | 北京栈桥知识产权代理事务所(普通合伙) 11670 | 代理人: | 潘卫锋 |
地址: | 300384 天津市西青区天津华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于语音情感识别的新特征提取方法,包括以下几个步骤:第一步:计算分段语谱图;第二步:特征准备与融合;步骤三,特征提取与分类。利用先验知识和光谱信息的组合光谱特征(CSF)和优化光谱特征(RSF),用CNN‑BLSTM模型从新特征中学习深度特征并区分情感。与语谱图相比,组合光谱特征和优化光谱特征相对错误率分别降低了32.04%和36.91%,能有效提高语音情感识别的准确性。 | ||
搜索关键词: | 语音情感 光谱特征 组合光谱 新特征 光谱信息 深度特征 特征提取 先验知识 错误率 分段 优化 分类 融合 学习 | ||
【主权项】:
1.一种用于语音情感识别的新特征提取方法,其特征在于,包括以下步骤:第一步,计算分段语谱图:将句子分成固定长度的语音段,经过短时傅立叶变换之后,获得分段语谱图的原始光谱矩阵,其大小为M×N,其中M表示时间点的数量,N表示所选区域和频率分辨率;第二步,特征准备与融合:1)获取帧级LLDs和段级统计特征;2)将固定帧数语音的LLDs特征按时间序列排列起来,构成段级时序LLDs特征,归一化后,获得时序LLDs的矩阵,其大小为M×P,其中M表示一段中的帧数,P表示LLDs的维数;3)按照时间序列为轴,将所述分段语谱图和所述时序LLDs拼接在一起作为组合光谱特征的矩阵,其大小是M×Q;4)将所述分段语谱图、时间序列LLDs和统计特征拼接在一起成优化光谱特征的矩阵,其大小为M×T;第三步,特征提取与分类:利用CNN分别从组合光谱特征和优化光谱特征中提取深度特征并将它们按时间排列成话语级特征,送到BLSTM中完成7种情感分类,构建CNN‑BLSTM模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910168424.1/,转载请声明来源钻瓜专利网。