[发明专利]一种数字助听器中基于深度学习的双耳声源定位方法有效
申请号: | 201711397816.2 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108122559B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 李如玮;潘冬梅;李涛;刘亚楠;张永亚 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L19/26 | 分类号: | G10L19/26;G10L21/0264;G10L25/06;G10L25/30;H04R25/00;G01S5/20 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字 助听器 基于 深度 学习 声源 定位 方法 | ||
1.一种数字助听器中基于深度学习的双耳声源定位方法,其特征在于,包括以下步骤:
步骤一,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,把双耳语音信号通入gammatone滤波器分成N个通道,并提取人耳敏感信息;
步骤二,利用头相关传递函数的双耳定位线索提取第一类特征,即耳间时间差和耳间强度差;
步骤三,将第一类特征作为深度学习的输入,利用深度学习的分类功能把水平面平均分成四个象限;
步骤四,再次利用头相关传递函数的双耳定位线索提取第二类特征,即耳间声压差和耳间相位差;
步骤五,将第一类和第二类的特征相结合,同时利用深度学习在步骤三得到的具体象限里进行水平面方位角的定位;
步骤二中,利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第一类特征,即耳间时间差和耳间强度差,根据压缩后的双耳数据xl和xr计算出声源定位因子,计算方式为:
第一类特征提取:
(1)耳间时间差(ITD):
其中,ITD表示双耳时间差,n为样点数,fn为总样本点数,
(2)耳间强度差(IID):
其中,Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号;
步骤四中,利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第二类特征,即耳间声压差和耳间相位差,根据压缩后的双耳数据xl和xr计算出声源定位因子,计算方式为:
第二类特征提取:
(3)耳间声压差(ILD):
其中,xl(t)表示左耳语音信号,xr(t)表示右耳语音信号,fn表示语音信号的总帧数,d为声源延迟,
(4)耳间相位差(IPD):
其中,E表示期望,Xl(f)表示频域的左耳语音信号,Xr(f)表示频域的右耳语音信号,*表示共轭。
2.如权利要求1所述的数字助听器中基于深度学习的双耳声源定位方法,其特征在于,步骤三中,采用第一个深度神经网络结构是52*28*28*28*4,输入是经过gammatone滤波器分解的26*2维的ITD和IID的特征,输入层神经元的个数是52,隐含层的神经元的个数是28,隐含层的层数是3,输出层的层数是4,即输出的四个象限,通过第一级深度神经网络模型,将ITD和IID的特征进行四个象限的分类,划分声源所在的象限,具体为:
(1)初始化网络:初始化输入层与隐层的连接权值wij,隐含层与输出层的连接权值wjk,初始化隐含层阈值aj,输出层阈值bk,并设定学习速率为0.01;
(2)计算隐含层的输出:根据wij,aj和输入xi的特征向量ITD和IID,各个隐含层的输出公式为:
其中,各个隐层的传递函数是sigmoid()函数,即
(3)计算输出层的输出:由隐含层的输出Hj和wjk,bk,输出层的公式为:
(4)计算误差:根据网络预测输出O和期望输出Y,网络的预测误差公式为:
ek=Yk-Ok,k=1 (9)
(5)更新权值:
wjk=wjk+ηHjek,j=1,2,...5;k=1 (11)
(6)更新阈值:
bk=bk+ek,k=1 (13)
(7)判断是否完成四个象限的分类,若没有完成,返回步骤(2)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711397816.2/1.html,转载请声明来源钻瓜专利网。