[发明专利]一种基于计算听觉场景分析的单通道语音盲分离方法有效
申请号: | 201310384413.X | 申请日: | 2013-08-29 |
公开(公告)号: | CN103456312A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 李鸿燕;贾海蓉;张雪英;任光龙;屈俊玲 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 董芙蓉 |
地址: | 030024 山西省太原*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 听觉 场景 分析 通道 语音 分离 方法 | ||
1.一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:
所述方法包括如下步骤:
步骤一、对输入的混叠语音进行前端处理;
步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;
步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;
步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;
步骤五、对经过步骤四处理的混叠语音进行目标语音重构。
2.如权利要求1所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:
步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式;根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,该滤波器的中心频率按照等距宽(Equivalent Rectangular Bandwidth,ERB)在80~5kHz之间准对数分布;将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型;得到神经发放率;然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理;将输入的混合语音信号分解成为一系列时频单元,即T-F单元;同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征。
3.如权利要求1或2所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:
步骤二中:经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7、式(8)为其计算公式:
其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络;
其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310384413.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抗干扰变频器电缆
- 下一篇:一种具有隔热功能的五层复合吸声材料