[发明专利]人工耳蜗听觉场景识别方法在审
申请号: | 201811276573.1 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109448755A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 林和平;许长建;樊伟;王澄;刘根芳 | 申请(专利权)人: | 上海力声特医学科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/27;G10L25/45 |
代理公司: | 上海申浩律师事务所 31280 | 代理人: | 唐佳弟;秦华毅 |
地址: | 201318 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 听觉场景 人工耳蜗 语音处理器 预处理 特征向量提取 信号处理模块 场景类型 场景噪声 加窗处理 特征提取 信号处理 音乐场景 语音信号 语音增强 噪声环境 可懂度 分帧 植入 匹配 场景 | ||
本发明公开了一种人工耳蜗听觉场景识别方法,其包括如下步骤:(A)建立标准的场景训练UBM;(B)将声音信号进行分帧与加窗处理;(C)对预处理后的声音信号按帧进行识别;(D)将VAD处理后的场景噪声信号进行特征向量提取;(E)将特征提取后的信号在GMM‑UBM系统中进行处理,得出似然分值,最终识别出场景类型。该人工耳蜗听觉场景识别方法通过建立一系列模型,能识别不同的听觉场景,为语音处理器后续语音增强及言语策略等信号处理模块提供指示,使语音处理器的信号处理与听觉场景更加匹配,提高患者在噪声环境下的语音信号的清晰度、可懂度,同时还可提高音乐场景下的聆听效果,进一步改善人工耳蜗植入患者的生活质量。
技术领域
本发明涉及一种听觉场景识别方法,尤其涉及一种人工耳蜗听觉场景识别方法。
背景技术
人工耳蜗是目前世界公认的能使双侧重度或极重度感音神经性耳聋患者恢复听觉的唯一有效方法及装置。现有的人工耳蜗运作流程为:声音先由麦克风采集转换为电信号,经过特殊的数字化处理,再按照一定的策略编码,通过载在耳后的发射线圈传送到体内,植入体的接收线圈感应到信号后,经过解码芯片解码,使植入体的刺激电极产生电流,从而刺激听神经产生听觉。由于使用环境的限制,声音中必然掺杂着环境杂音,需要对声音信号进行一定的算法优化,但鉴于使用环境的多样化,如果只使用单一算法优化,则算法优化后的信号有时会与实际情况有所偏差,无法达到最佳的听觉效果,故需要一种听觉场景的识别方法,使得不同场景使用不同的优化算法,已达到最佳的听觉效果。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种人工耳蜗听觉场景识别方法,其能识别不同的听觉场景。
为实现上述目的,本发明提供了一种人工耳蜗听觉场景识别方法,其包括如下步骤: (A)模型训练程序模块收集各种场景训练信号,通过EM算法形成标准的场景训练UBM;(B)预处理程序模块将声音信号进行分帧与加窗处理;(C)VAD处理程序模块对预处理后的声音信号按帧进行识别,识别该帧信号为场景噪声信号还是语音信号;(D)特征提取程序模块将VAD处理后的场景噪声信号进行特征向量提取;(E)场景识别程序模块将特征提取后的一部分输入UBM进行相关运算;一部分输入GMM运算,然后UBM中的相关数据与GMM中数据进行运算,形成新的GMM;之后UBM中的数据与新GMM中的数据进行比较,得出似然分值,最终识别出场景类型。
在步骤B中,该加窗处理使用Hamming窗或Hanning窗。
进一步,Hamming窗:其中,窗长 N=256,帧移取128。
在步骤C中,该识别采用基于短时能量和短时过零率的VAD检测方法。
在步骤D中,该特征向量提取采用MFCC或FBank。
进一步,一帧场景噪声信号的MFCC参数的计算方法:根据离散傅里叶变换计算信号的离散谱{S(ω)};按Bark刻度把频率分成D=30等分,并计算出其中心频率和边界频率,其中,Bark刻度Ω与频率f变换关系为利用D个三角带通滤波器分别与离散谱{S(ω)}做卷积求出每个频段的对数能量输出E(d)(d=1,2,...,D),其中,三角滤波器的中心频率和边界频率与相应的Bark频段对齐;对各频段的对数能量输出进行离散余弦变换得到取前16维作为特征参数。
在步骤E中,在GMM-UBM系统中,场景噪声模型通过贝叶斯自适应方法修改UBM的某些参数得到,自适应算法分为两步,第一步是期望过程,计算场景训练数据在UBM各单高斯分布上的统计参数;第二步,用新的统计参数与UBM的参数加权得到场景噪声模型的参数,加权方法使得最终的场景噪声模型中,由较多场景训练数据自适应的分布其参数接近于测试场景噪声自身的参数,而由较少测试数据自适应其分布参数接近于UBM的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海力声特医学科技有限公司,未经上海力声特医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276573.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于样本的爆炸声音自动合成方法
- 下一篇:一种语音年龄识别方法及系统