[发明专利]相位对重构语音声调感知影响方法及在人工耳蜗中应用有效
申请号: | 201510066246.3 | 申请日: | 2015-02-09 |
公开(公告)号: | CN104616659B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 田岚;郭翠翠;魏莹 | 申请(专利权)人: | 山东大学 |
主分类号: | G10L19/12 | 分类号: | G10L19/12 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 赵妍 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相位 语音 声调 感知 影响 方法 人工 耳蜗 应用 | ||
技术领域
本发明公开了相位对重构语音声调感知影响方法及在人工耳蜗中应用。
背景技术
人工耳蜗(Cochlear Implant,简称CI)的问世为先天或后天重度至极重度感音性耳聋患者带来了福音。随着人工耳蜗对声信号编码策略的不断的改进,CI植入者的言语识别能力获得了明显改善,音节识别率可达到95%以上。但是,对讲汉语这类声调语言的CI植入者来说,声调感知不佳问题仍有待完善,是目前人工耳蜗技术研究的难题之一。为此,国内外学者对CI植入者进行了若干研究。近期研究表明,49例国产诺尔康人工耳蜗产品植入者在安静环境下的声调识别率平均为67.26%,噪声环境下仅为51.92%;另有研究,对16例语后聋CI植入者采用去除时长信息的测试材料进行声调识别能力测试,结果表明,声调识别总平均分为70.22%。同时,国外研究也发现,各种主流言语编码策略(如ACE、CIS和SPEAK等)的CI植入者的声调平均识别率为50%-80%,与言语音节或词汇识别率相差较大。
对上述声音编码策略的分析可知,根据人耳内部所具有的声音“频谱分析器”的感音生理结构,人工耳蜗声音处理器是将每小段声音信号随时间推移所包含的各种频率成分的变化分解成若干个频带,经带通滤波器滤波,每个通带输出对应频段的时变信号,经检波、低通,每个通带信号的能量包络按一定的时间间隔抽样编码,以所有通带或部分能量较高通带的能量编码调制刺激电流脉冲的幅度,再按一定工作顺序送到耳蜗内电极上,传递该段声音信号对末端听神经的刺激。目前子频带总数通常与电极总数相同,为12至24个,这样的电极密度对传递声道谱包络特性(或谐振特性)为主要特征的发音内容来说,可以比较准确地表达各个发音单元,所以目前的人工耳蜗各产品在识别语音内容(即不涉及声调的音节、词和句)方面达到较高满意度。然而,这样的声音编码策略传递的刺激信号阵列作用到听觉神经组织后得到的汉语的声调感知却并不理想,声调识别率明显下降,反映了这样的编码策略在声调信息表达上存在缺陷。
发明内容
为了解决现有技术中存在的技术缺陷,本发明公开了一种利用相位特征对重构汉语语音声调感知进行调教的方法。本发明从信号分解的角度出发,采用测听重构音的实验方法,研究这种缺失是否与相位特征有关,以改进人工耳蜗声调信息的编码方法。
本发明采用的技术方案如下:
一种相位对重构语音声调感知影响方法,包括以下步骤:
步骤1获取原始的汉语语音声调信号;
步骤2对步骤1的声调信号采用傅里叶变换分解,得到与汉语语音声调信号相应的幅度、频率和相位三组特征参数;
步骤3在相同条件下,保持信号的频率和幅度特征两者同时不变,仅改变相位特征,得到原始汉语语音声调信号的重构信号;
步骤4对重构信号进行识别,进而得到相位特征对重构汉语语音声调感知影响。
步骤3中所述的重构信号的方法为:去掉原始汉语语音声调信号的原相位特征,保持原信号频率和幅度特征不变,重构新信号。
具体方法如下:
3-1.选用符合短时平稳要求的窗长;
3-2.确定帧长、采样率和FFT样点数,随信号推移逐帧作FFT,半帧重叠,得到每帧语音信号频谱X(n,w)如下:
X(n,w)=|X(n,w)|ejφ(n,w),n=0,1,...N-1 (1)
|X(n,w)|为短时幅度谱,φ(n,w)=∠X(n,w)为短时相位谱;
3-3.保持原语音信号的短时幅度谱|X(n,w)|不变,将短时相位谱φ(n,w)置零,然后将幅度谱|X(n,w)|和零相位谱两者重新组合重构声音。
所述的窗长与相位特征关系的确定方法如下对同一个音节分别以不同窗长的语音短段进行短时频谱分析和零相位重构。
所述的窗长选取:16ms、10ms、8ms、5ms、4ms、3ms、2ms、1ms;在不考虑相位的情况下,减小窗长至2ms以下,音节的调型由于窗长较小、频谱的时间分辨率较高,即使在相位缺失情况下,各频率成分时间偏移有限,导致信号叠加后的主峰值间隔关系未发生明显变化,故声调可感知。
所述的3-2中重叠帧部分采用重叠相加法进行处理,以去除海明窗叠加产生的增益误差。
步骤3中所述的重构信号的方法如下:
采用短时傅里叶变换嵌合法重构语音,即将两个声信号进行相同的短时傅里叶变换,提取各自的幅度谱和相位谱,再将来自不同原信号的幅度谱和相位谱交叉组合,重构新的音节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510066246.3/2.html,转载请声明来源钻瓜专利网。