[发明专利]一种动态多频带非线性语音特征提取方法在审
申请号: | 202011198847.7 | 申请日: | 2020-10-31 |
公开(公告)号: | CN112562642A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 张晓俊;伍远博;周长伟;朱欣程;陶智;赵鹤鸣 | 申请(专利权)人: | 苏州大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 215006 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 频带 非线性 语音 特征 提取 方法 | ||
本发明公开了一种动态多频带非线性语音特征提取方法,将语音样本采用基于人耳听觉特性的巴克滤波器组进行滤波分频。分频后的24个频带信号通过计算过零率的方式,自适应获得分频因子a。随后在第0至a个频带中,将语音计算频谱、对数运算后采用离散余弦变换方案来提取巴克频率倒谱系数特征;在第a+1至24的频带中,将信号嵌入相空间后提取最大李雅普诺夫指数和关联维特征,随后进行特征统一化处理。本发明采用自适应分频因子,采用分频带处理的方式,使处理之后的信号更加符合人类的听觉特性和实际情况,从而能够提取出性能更优秀的语音特征参数。
技术领域
本发明涉及一种语音识别方法,具体涉及的是一种动态多频带非线性语音特征提取方法。
背景技术
语言是人类最自然、最方便的交流工具。而语音识别技术则是计算机模拟人类的认识过程,把人类的语音信号转变为相应的文本或命令的技术,其根本目的是研究出一种具有人听觉功能的机器,这种机器能够接受人的语音,理解人的意图,并做出相应的反应,从而对人类的发展提供极大的帮助。近年来随着互联网、计算机、手机、通信等IT产业的高速发展,许多应用系统都要求简单、高效、友善的人机交互,因此人机之间的自然语音交流已经成为重要的研究课题。
目前的语音信号识别系统对环境条件的依赖性强,这样就会导致所提取的语音特征参数有所差异,因此如何提高语音特征参数的鲁棒性成为提高语音的识别率的关键。
发明内容
为解决上述问题,本发明提供一种语音识别中的特征参数提取方法,将语音样本采用符合人耳听觉特性的巴克滤波器组进行分割,获得24个频带信息,使处理之后的信号更加符合人类的听觉系统,从而能够提取出性能更优秀的语音特征参数。
为实现上述技术目的,本发明通过以下技术方案实现:
本发明提出一种动态多频带非线性语音特征提取方法,具体如下:
将语音样本采用基于人耳听觉特性的巴克滤波器组进行滤波分频,分频后的24个频带信号自适应获得分频因子α;然后进行如下步骤处理:
(1)第0至α的频带中,将嗓音信号的语音对数运算后采用离散余弦变换提取巴克频率倒谱系数特征,求取每阶参数的均值,进行排列;
(2)在第α+1至24的频带中,将信号嵌入相空间后提取最大李雅普诺夫指数和关联维特征,求取每阶参数的均值,进行排列;
(3)将巴克频率倒谱系数特征、最大李雅普诺夫指数和关联维特征整合成动态多频带非线性特征参数。
进一步,本发明所提出的一种动态多频带非线性语音特征提取方法,在步骤(1)中,提取巴克频率倒谱系数特征参数,具体包括以下步骤:
步骤1)、将巴克域子波母函数表示为:
得到听觉感知域下的函数表达式:
其中,Δb=(b2-b1)/(K-1)为的平移步长,k为尺度参数,[b1,b2]为听觉感知频率带宽;b代表听觉感知频率;
步骤2)、引入线性频率与听觉感知频率之间的函数关系:
b=6.7asinh[(f-20)/600];式中式中asinh表示反双曲正弦函数;
步骤3)、将步骤2)的函数关系代入步骤1)的听觉感知域下的函数表达式,得到线性频率下的听觉感知子波函数的表达式:
步骤4)、将语音能量计算出以后,通过巴克滤波器组:BWm(k) 1≤m≤24,随后通过能量对数的离散余弦变换提取出巴克频率倒谱参数。
进一步,本发明所提出的一种动态多频带非线性语音特征提取方法,在步骤(2)中,最大李雅普诺夫参数的提取采用沃尔夫算法,具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011198847.7/2.html,转载请声明来源钻瓜专利网。