[发明专利]一种多基频提取方法及装置有效
申请号: | 201511023725.3 | 申请日: | 2015-12-30 |
公开(公告)号: | CN105469807B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 刘文举;江巍;王天正;李杰;梁基重;李艳鹏;乔利玮;刘元华 | 申请(专利权)人: | 中国科学院自动化研究所;国网山西省电力公司电力科学研究院;山西振中电力股份有限公司 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L15/14 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基频 提取 方法 装置 | ||
1.一种基于经验模式分解和隐马尔可夫模型的多基频提取方法,其特征在于,包括下列步骤:
步骤1:用听觉滤波器组对语音信号进行滤波,对滤波后的信号进行分帧,得到语音信号的二维时频表达即听觉谱;
步骤2:在听觉谱的各时频单元上计算自相关函数;
步骤3:对各时频单元的自相关函数进行经验模式分解,并在经验模式分解得到的本质模态函数的基础上计算各时频单元主导声源的瞬时频率;
步骤4:在各瞬时频率的基础上计算频率匹配函数;
步骤5:用频率匹配函数构建各基频状态的似然概率,并使用语料库统计各基频状态和基频数值之间的转移概率;所述各基频状态包括单基频状态和双基频状态;
步骤6:将所述各基频状态的似然概率进行增强,然后将增强后的所述似然概率与对应的转移概率结合,并使用隐马尔可夫模型对所述语音信号的多基频轨迹进行提取。
2.如权利要求1所述的方法,其特征在于,步骤1中利用听觉滤波器组对语音信号进行滤波,所述听觉滤波器组中的各滤波器的输出均为与所述语音信号长度相同的时域信号,对所述各滤波器的输出加窗分帧处理,得到所述语音信号的二维时频表达。
3.如权利要求1所述的方法,其特征在于,步骤2中所述在听觉谱的各时频单元的自相关函数按如下公式进行计算:
其中,h(c,·)是第c个滤波器通道内所述听觉滤波器组中相应滤波器的输出,m是语音帧序号,n表示离散时间点,τ是延迟时间点,T表示每帧语音信号对应的采样点数,W表示离散点个数。
4.如权利要求1所述的方法,其特征在于,步骤3中所述在各时频单元的自相关函数上进行经验模式分解,步骤包括:
利用希尔伯特-黄变换将所述自相关函数分解为一系列本质模态函数,并根据听觉掩蔽效应,将第一个分解出的本质模态函数的频率作为该时频单元中主导声源的瞬时频率。
5.如权利要求1所述的方法,其特征在于,步骤4中所述频率匹配函数用于描述当前时频单元的平均瞬时频率与各个候选基音频率匹配的程度,其计算公式如下:
其中,表示位于第m帧第c个通道的时频单元的平均瞬时频率,τ表示候选的基音周期,int(·)为取整函数,返回最近的整数值。
6.如权利要求1所述的方法,其特征在于,步骤5具体包括:
首先,在频率匹配函数的基础上构建各基频状态的似然概率,第m帧的第c个通道的时频单元u(c,m)中存在单个基音周期τ1的似然概率如下:
时频单元u(c,m)中同时存在两个基音周期τ1和τ2的似然概率如下:
其中,x表示语音信号,ω1、ω2分别为单基音频率状态和双基音频率状态;L(c,m)为各时频单元的归一化响度;Φc为二维时频表达中的通道序号集合,F(c,m,τ1)为所述频率匹配函数;
在上述公式中,L(c,m)是各时频单元的归一化响度,其计算公式如下:
其中,E(c,m)表示时频单元u(c,m)的能量,N是滤波器组的通道个数;
其次,每帧的基音频率的状态可能存在于三种空间之中,即零基频、单基频和双基频空间:
Ω=Ω0∪Ω1∪Ω2
三个基频状态之间的转移概率是通过带有基频标注的数据库统计得到的:
其中,Ωi基频状态空间,pij表示从基频状态空间Ωi到基频状态空间Ωj的转移概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国网山西省电力公司电力科学研究院;山西振中电力股份有限公司,未经中国科学院自动化研究所;国网山西省电力公司电力科学研究院;山西振中电力股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511023725.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:隧道磁阻器件和隧道磁阻读磁头
- 下一篇:全自动外语语音现场控制汽车驾驶的方法