[发明专利]一种基于CRBM和SNN进行鲁棒性语音性别分类的方法有效
申请号: | 201811212763.7 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109522448B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 于强;王龙标;姚艳丽;党建武 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06K9/62 |
代理公司: | 北京栈桥知识产权代理事务所(普通合伙) 11670 | 代理人: | 胡颖 |
地址: | 300073*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 crbm snn 进行 鲁棒性 语音 性别 分类 方法 | ||
1.一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,包括以下步骤:
步骤一,语音数据集预处理:从语音数据库中选择若干句不同信噪比的语音数据并随机分为训练集和测试集两组;将所述语音数据通过快速傅里叶变换转换为语谱图,再经过PCA操作对语谱图进行预处理降维操作;
步骤二,数据特征编码:
1)特征提取:运用无监督方法CRBM进行特征提取,选择500组滤波器进行训练,CRBM训练得到的特征值进行从大到小排序,特征值的大小代表了脉冲传播的顺序;
2)脉冲序列生成:根据所提取特征值的大小和产生脉冲的时间成反比的原则生成脉冲图,每个神经元在编码时间窗内只产生一个脉冲;
步骤三,tempotron神经元的训练:
通过脉冲神经网络结合tempotron学习算法处理脉冲序列,计算神经元后突触膜电位,膜电位的计算如公式(1)-(2):
其中,K(t-ti)代表在t时间下ti时间点传入的脉冲的贡献,
当膜电位V(t)超过一个固定的阈值时,神经元就会发放一个脉冲,并很快地降至复位点位并维持一小段时间,然后接受前段突触的输入脉冲重新升高膜电位;
步骤四,读出部分:
采用分组设计,根据学习神经元的响应对刺激信号进行分类,具体为将tempotron神经元分为激活或者不激活两种状态,使所有状态下的tempotron神经元都响应它们对应的目标类别,同时对不属于目标类别的神经元保持不变,最终根据投票法来对分类结果进行判定。
2.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤一中预处理降维操作的具体方法为:对每句话提取语谱图时,窗长设置为16ms,窗移设置为8ms,窗函数使用的是汉明窗,PCA组分设置为80。
3.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤一中训练集和测试集的语句一半来自于男性,一半来自于女性,并且训练集和测试集来自于不同的说话人。
4.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,步骤二中CRBM训练时主要包括前向计算和反向计算过程,概率分布的定义如公式(3)-(4):
P(vi|h)=Normal(∑k(Wk*hk)i+c,1) (4) 。
5.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,步骤三中所述t empotron是一个梯度下降学习算法,在处理性别分类问题时,每一个输入模式属于男女两类当中的一类,分别通过P+和P-表示,神经元通过激活或者不激活来做决策,当P+模式出现时神经元应该激活,P-模式出现时不应该激活,如果出现其他情况,tempotron规则将调整突触权重以得到更合适的值;tempotron学习规则如公式(5):
其中,tmax表示在一个时间窗内该输出层神经元达到电压最大值的时刻,λ代表学习率;如果在P+模式神经元没有发放脉冲,则增加突触权重,相反,如果在P-模式神经元错误发放脉冲,则减少突触权重。
6.根据权利要求1所述的一种基于CRBM和SNN进行鲁棒性语音性别分类的方法,其特征在于,所述步骤四中每一类采用分组设计,使得在一定时间窗内获得更多的特征信息,其中每50个神经元组成一组代表一类,以提高性别分类的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811212763.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频文件处理方法、装置及车辆
- 下一篇:搜索方法和装置