[发明专利]一种基于计算听觉场景分析的单通道语音盲分离方法有效

专利信息
申请号: 201310384413.X 申请日: 2013-08-29
公开(公告)号: CN103456312A 公开(公告)日: 2013-12-18
发明(设计)人: 李鸿燕;贾海蓉;张雪英;任光龙;屈俊玲 申请(专利权)人: 太原理工大学
主分类号: G10L21/0272 分类号: G10L21/0272
代理公司: 北京方圆嘉禾知识产权代理有限公司 11385 代理人: 董芙蓉
地址: 030024 山西省太原*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 计算 听觉 场景 分析 通道 语音 分离 方法
【权利要求书】:

1.一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:

所述方法包括如下步骤:

步骤一、对输入的混叠语音进行前端处理;

步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;

步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;

步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;

步骤五、对经过步骤四处理的混叠语音进行目标语音重构。

2.如权利要求1所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:

步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式;根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,该滤波器的中心频率按照等距宽(Equivalent Rectangular Bandwidth,ERB)在80~5kHz之间准对数分布;将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型;得到神经发放率;然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理;将输入的混合语音信号分解成为一系列时频单元,即T-F单元;同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征。

3.如权利要求1或2所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:

步骤二中:经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7、式(8)为其计算公式:

AH(c,m,τ)=1NcΣn=0Nc-1h(c,mT-n)h(c,mT-n-τ)---(4)]]>

AE(c,m,τ)=1NcΣn=0Nc-1hE(c,mT-n)hE(c,mT-n-τ)---(5)]]>

其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络;

P(m)=maxτ{ΣcAH(c,m,τ)},τ[2ms,12.5ms]---(6)]]>

CH(c,m)=Στ=0L-1A^H(c,m,τ)A^H(c+1,m,τ)---(7)]]>

CE(c,m)=Στ=0L-1A^E(c,m,τ)A^E(c+1,m,τ)---(8)]]>

其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310384413.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top