[发明专利]人工耳蜗听觉场景识别方法在审
申请号: | 201811276573.1 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109448755A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 林和平;许长建;樊伟;王澄;刘根芳 | 申请(专利权)人: | 上海力声特医学科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/27;G10L25/45 |
代理公司: | 上海申浩律师事务所 31280 | 代理人: | 唐佳弟;秦华毅 |
地址: | 201318 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 听觉场景 人工耳蜗 语音处理器 预处理 特征向量提取 信号处理模块 场景类型 场景噪声 加窗处理 特征提取 信号处理 音乐场景 语音信号 语音增强 噪声环境 可懂度 分帧 植入 匹配 场景 | ||
1.一种人工耳蜗听觉场景识别方法,其包括如下步骤:(A)模型训练程序模块收集各种场景训练信号,通过EM算法形成标准的场景训练UBM;(B)预处理程序模块将声音信号进行分帧与加窗处理;(C)VAD处理程序模块对预处理后的声音信号按帧进行识别,识别该帧信号为场景噪声信号还是语音信号;(D)特征提取程序模块将VAD处理后的场景噪声信号进行特征向量提取;(E)场景识别程序模块将特征提取后的一部分输入UBM进行相关运算;一部分输入GMM运算,然后UBM中的相关数据与GMM中数据进行运算,形成新的GMM;之后UBM中的数据与新GMM中的数据进行比较,得出似然分值,最终识别出场景类型。
2.如权利要求1所述的人工耳蜗听觉场景识别方法,其特征在于:在步骤B中,该加窗处理使用Hamming窗或Hanning窗。
3.如权利要求2所述的人工耳蜗听觉场景识别方法,其特征在于:Hamming窗:其中,窗长N=256,帧移取128。
4.如权利要求1所述的人工耳蜗听觉场景识别方法,其特征在于:在步骤C中,该识别采用基于短时能量和短时过零率的VAD检测方法。
5.如权利要求1所述的人工耳蜗听觉场景识别方法,其特征在于:在步骤D中,该特征向量提取采用MFCC或FBank。
6.如权利要求5所述的人工耳蜗听觉场景识别方法,其特征在于:一帧场景噪声信号的MFCC参数的计算方法:根据离散傅里叶变换计算信号的离散谱{S(ω)};按Bark刻度把频率分成D=30等分,并计算出其中心频率和边界频率,其中,Bark刻度Ω与频率f变换关系为利用D个三角带通滤波器分别与离散谱{S(ω)}做卷积求出每个频段的对数能量输出E(d)(d=1,2,...,D),其中,三角滤波器的中心频率和边界频率与相应的Bark频段对齐;对各频段的对数能量输出进行离散余弦变换得到取前16维作为特征参数。
7.如权利要求1所述的人工耳蜗听觉场景识别方法,其特征在于:在步骤E中,在GMM-UBM系统中,场景噪声模型通过贝叶斯自适应方法修改UBM的某些参数得到,自适应算法分为两步,第一步是期望过程,计算场景训练数据在UBM各单高斯分布上的统计参数;第二步,用新的统计参数与UBM的参数加权得到场景噪声模型的参数,加权方法使得最终的场景噪声模型中,由较多场景训练数据自适应的分布其参数接近于测试场景噪声自身的参数,而由较少测试数据自适应其分布参数接近于UBM的参数。
8.如权利要求7所述的人工耳蜗听觉场景识别方法,其特征在于:给定UBM和训练矢量序列X={x1,x2,...,xT},首先计算每个特征矢量属于UBM中任一高斯分布的概率,对UBM中第i个高斯分布,计算然后根据Pr(i|xt)和xt计算用于修改权重、均值和方差的统计参数最后,由场景训练数据得到的这些新的统计参数用来更新UBM的模型参数自适应参数ai控制新旧参数的平衡,比例因子γ调整权重,使得自适应之后所有的权重之和为1,对于第i个高斯分布,用于上述自适应参数ai,定义为其中,r是一个固定值,控制UBM的参数在自适应中的权重,设定r=16。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海力声特医学科技有限公司,未经上海力声特医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276573.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于样本的爆炸声音自动合成方法
- 下一篇:一种语音年龄识别方法及系统