[发明专利]基于模糊聚类决策树的分布式大型人口语者识别方法在审
申请号: | 201510234252.5 | 申请日: | 2015-05-08 |
公开(公告)号: | CN105006231A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 陈志;芮路;岳文静;黄继鹏;顾振兴;崔鸣浩;吴向忠;黄本轩 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/30 | 分类号: | G10L15/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模糊 决策树 分布式 大型 人口 识别 方法 | ||
1.一种基于模糊聚类决策树的分布式大型人口语者识别方法,其特征在于该方法包括以下步骤:
步骤1)将语音样本数据等分成三个部分;分别将等分后的语音样本数据作为一棵决策树的根节点C1进行建树;每一个语音样本都来自不同的语者, 表示L层的第nL+1个节点;同时对三个语音样本数据执行同样的操作进行分类建树和语音识别;对根节点进行分组,得到的子节点执行相同的步骤继续进行分组直到建成决策树;
步骤2)判断当前节点中的样本数量是否大于预设值,当前节点中的样本数量不大于预设值,该节点为叶节点,不要再进行分组;
步骤3)对节点上的样本进行特征提取,每一层只提取一种特征,依次提取音调、语音信号正脉冲的均值、语音信号正脉冲的偏斜、语音信号负脉冲的均值、语音信号负脉冲的偏斜和语音信号正脉冲的宽度;
步骤4)计算每个语者特征数据的平均值和标准差,计算公式为: 所述μi为语者i的特征数据的平均值,σi为语者i的特征数据的标准差Fi,j为提取出的特征,i是当前节点上的语者索引,j=1,2,...,Ni是特征索引,Ni表示语者i的特征值的总数;然后构建一个可信任的间距[μi-λδi,μi+λδi],λ是一个预定的系数;得到所有语者两个统计数据μi±λδi的集合D={μi-λδi,μi+λδi};
步骤5)对集合D使用Lloyd算法得到分隔向量[P0,P1,...,PM],M为Lloyd的算法采用的语者组的总数;所述Lloyd算法是计算机科学领域中的k-平均算法,用于把观测按照距离分配到最近的聚类;
步骤6)对每个语者i进行分组,i∈C1,判断其属于C1,m中的哪一个,m=1,2,...,M,具体步骤如下:
步骤6.1)首先令m=1;
步骤6.2)然后判断[μi-λδi,μi+λδi]∩[Pm-1Pm]是否大于0,若是则语者i属于C1,m然后进行下一步,若不是则直接进行下一步;
步骤6.3)判断m是否等于M,若是则结束,若不是则令m=m+1然后重复步骤6.2直到将所有的语者都分组完毕,所得的C1,m即是决策树的下一层;
步骤7)对一个测试下的语者进行身份识别,具体步骤如下:
步骤7.1)输入测试语者的语音;
步骤7.2)对已建好的三棵决策树,分别同时从决策树的根节点开始,对测试语者进行分类,直到其中一棵树分类完成,即识别出该语者身份;
步骤7.3)从树的根节点开始,对测试语者进行分类直到结束或找到测试语者属于的叶节点,对树的每个节点分别执行步骤7.4)和步骤7.5)的分类步骤;所述树的每个节点是非叶子节点或者叶子节点,所述根节点是非叶子节点或者叶子节点;
步骤7.4)判断该节点是否为叶节点,若是叶节点则对该节点使用梅尔频率倒谱系数和高斯混合模型进行身份识别;对测试语者的语音进行特征提取和异常值去除,提取方法同步骤3)相同,且相应的层只提取相应的特征,得到特征集合{Fk},k=1,2,...,K,K为特征值总数;计算特征值的平均值
步骤7.5)通过比较平均值和从模糊聚类中的Lloyd算法得到的分隔向量[P0,P1,...,PM]来做分类决定,具体步骤如下:
步骤7.5.1)首先令m=1;
步骤7.5.2)判断是否有Pm-1≤μ≤Pm,若不是则令m=m+1重复此步骤继续判断直到m=M,若是则该测试语者被分类到子节点且此层分类结束。
2.根据权利要求1所述的基于模糊聚类决策树的分布式大型人口语者识别方法,其特征在于步骤3)对节点上的样本进行特征提取的具体步骤如下:
步骤3.1)音调特征提取,具体步骤如下:
步骤3.1.1)将连续的语音输入到音调提取模块;
步骤3.1.2)音调提取模块使用YIN算法将语音分解成NF帧,一帧的长度是25ms,帧移位长度是10ms;所述的YIN算法是一种基于自相关方法的检测语音和音乐的基本频率的算法;
步骤3.1.3)获得第i帧的音调值Pi和有声概率Pri,i=0,1,2,...,NF;
步骤3.1.4)去掉50Hz到550Hz范围之外的音调值,同时去掉从有声概率低于0.8的帧 中提取的音调值;最后得到可靠的音调值的集合;
步骤3.2)五个声源特征提取,具体步骤如下:
步骤3.2.1)将连续的语音分解成步骤3.1.2)中描述的帧;
步骤3.2.2)计算每一帧的能量Ei和过零率Zi,并判断该帧是否有声,若不是有声则不进行操作,若是有声则用Levinson-Durbin算法来计算线性预测系数,通过使用线性预测系数得到线性预测剩余信号,然后从LP剩余信号中提取五个声源特征;提取的特征表示为Fi,j,i是当前节点上的语者索引,j是特征索引,j=1,2,...,Ni,Ni表示语者i的特征值的总数;所述的Levinson-Durbin算法是一种利用自相关矩阵中特殊的对称性来求解正则方程组中的预测系数的算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510234252.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体存储器件
- 下一篇:用于电力教学的电力线路控制台