[发明专利]基于特征融合的声调识别方法有效
申请号: | 201710939527.4 | 申请日: | 2017-10-11 |
公开(公告)号: | CN107492373B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 晁浩;刘永利;鲁保云;智慧来;刘志中 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/01 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 融合 声调 识别 方法 | ||
1.一种基于特征融合的声调识别方法,其特征在于包括如下步骤:
步骤1、提取待识别语音信号中每一帧的倒谱特征矢量,得到倒谱特征矢量序列;
步骤2、获取所述待识别语音信号的韵律特征矢量;
步骤3、根据所述倒谱特征矢量序列计算所述待识别语音信号中每一帧的段统计量特征矢量,得到段统计量特征矢量序列;
步骤4、将所述倒谱特征矢量序列、所述韵律特征矢量和所述段统计量特征矢量序列输入到预先训练好的反馈神经网络模型,得到每一种声调的总识别得分,并将总识别得分最高的声调判定为所述待识别语音信号的声调类型;
所述步骤3中,根据所述倒谱特征矢量序列计算所述待识别语音信号中每一帧的段统计量特征矢量,得到段统计量特征矢量序列,具体步骤包括:
步骤31、获取该帧前后特定时间范围内的语音段,并提取所述语音段对应的局部倒谱特征矢量序列;
步骤32、计算所述局部倒谱特征矢量序列中每一维的统计特征;
步骤33、将所有维的统计特征连接起来,形成该帧的段统计量特征矢量;
所述步骤1中,待识别语音信号对应一个音节,倒谱特征矢量为梅尔频率倒谱系数;
所述步骤2中,韵律特征矢量包含基频曲线特征、时长特征和能量特征;
所述步骤32中,统计特征包括:最大值、最小值、最大值所在位置、最小值所在位置、范围、几何平均数、算术平均数、平方平均数、方差、标准差、偏斜度;
所述步骤4中,反馈神经网络模型包含第一输入层、第二输入层、记忆层、第一隐含层、第二隐含层和输出层;其中,所述第一输入层用于接收所述倒谱特征矢量序列和所述段统计量特征矢量序列;所述第二输入层用于接收所述韵律特征矢量;
所述步骤4的具体步骤包含:
步骤41:将所述倒谱特征矢量序列和所述段统计量特征矢量序列按照时序输入到所述第一输入层,将所述韵律特征矢量输入到所述第二输入层,计算每一帧的输出值矢量;
步骤42:根据每一帧的输出值矢量确定每一种声调在每一帧的帧识别得分;
步骤43:将每一种声调在每一帧的帧识别得分相加,得到每一种声调的总识别得分;
步骤44:将总识别得分最高的声调判定为所述待识别语音信号的声调类型;
所述步骤41中,所述每一帧的输出值矢量具体通过下面公式得到:
yk(t)=f(Lk(t))
其中,t表示第t帧,yk(t)表示所述输出层中第k个节点的输出值,所述输出层中所有节点的输出值构成了第t帧的输出值矢量y(t);f(·)表示sigmoid函数,Lk(t)表示所述输出层中第k个节点的输入值,所述输出层中所有节点的输入值构成了所述输出层的输入值矢量L(t),所述L(t)具体通过如下公式得到:
L(t)=W3z(t)
其中,W3表示连接第二隐含层到输出层的权值矩阵,z(t)表示所述第二隐含层的输出值矢量,所述z(t)的第j个分量zj(t)表示所述第二隐含层中第j个节点的输出值,所述zj(t)通过下面公式得到:
zj(t)=f(Tj(t))
其中,Tj(t)表示所述第二隐含层中第j个节点的输入值,所述第二隐含层中所有节点的输入值构成了所述第二隐含层的输入值矢量T(t),所述T(t)具体通过如下公式得到:
T(t)=W2x(t)+W5p
其中,W2表示连接第一隐含层到第二隐含层的权值矩阵,W5表示连接第二输入层到第二隐含层的权值矩阵,p表示所述韵律特征矢量,x(t)表示所述第一隐含层的输出值矢量,所述x(t)的第i个分量xi(t)表示所述第一隐含层中第i个节点的输出值,所述xi(t)通过下面公式得到:
xi(t)=f(Vi(t))
其中,Vi(t)表示所述第一隐含层中第i个节点的输入值,所述第一隐含层中所有节点的输入值构成了所述第一隐含层的输入值矢量V(t),所述V(t)通过如下公式得到:
V(t)=W1(f(t)T,s(t)T)T+W4xc(t)
其中,W1表示连接第一输入层到第一隐含层的权值矩阵,(f(t)T,s(t)T)T表示第t帧的倒谱特征矢量f(t)和段统计量特征矢量s(t)相连接形成的新矢量,W4表示连接记忆层到第一隐含层的权值矩阵,xc(t)表示第t帧时所述记忆层的值,xc(t)具体通过下面公式得到:
xc(t)=x(t-1)
其中,x(t-1)表示第t-1帧时所述第一隐含层的输出值矢量。
2.根据权利要求1所述的基于特征融合的声调识别方法,其特征在于所述步骤41之前还包括:
步骤40:将第1帧时所述记忆层的值xc(1)设置为初始值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710939527.4/1.html,转载请声明来源钻瓜专利网。