[发明专利]基于样本量的声纹聚类方法、装置、设备及存储介质有效
申请号: | 201910880452.6 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110782879B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 冯晨;王健宗;彭俊清 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L25/24 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 声纹 方法 装置 设备 存储 介质 | ||
1.一种基于样本量的声纹聚类方法,其特征在于,所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统,所述声纹聚类系统包括缓存模块、存储模块以及处理器,所述基于样本量的声纹聚类方法包括以下步骤:
所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果;
若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集,则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果;
所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果的步骤,包括:
所述目标声纹聚类模型将各个区间内的各条声纹数据,分别记为一类,作为初始类;
根据预设类间距计算公式,得到各个区间内各个声纹数据两两对应的类间距,并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆,其中,所述类间距=1-代表两类的两条声纹数据标准化后的PLDA打分,且所述类间距满足正态分布;
选择类间距最小的两个类Ai和Bj,分别计算所述两个类Ai和Bj的类间距所服从分布的均值;
若类间距且类间距,则合并Ai,Bj;
若类间距且类间距,则分离Ai,Bj;
其中,取值为3,为Ai,Bj之间的类间距,为类Ai的类间距服从分布的均值,为类Bj的类间距服从分布的均值;
若Ai和/或Bj的个数大于1,则先筛选出两两PLDA打分最小的两个点Ai和Bj,再选择剩余的点中与所述Ai和Bj两两PLDA打分最小的点,并计算所述打分最小的点的类间距=(-类内代表点标准化后两两PLDA打分)/类中样本个数,直到剩余一个类或者没有类剩余,得到所述待聚类声纹样本集中小样本量样本集的聚类结果。
2.如权利要求1所述的基于样本量的声纹聚类方法,其特征在于,所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后,还包括:
对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
3.如权利要求2所述的基于样本量的声纹聚类方法,其特征在于,所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910880452.6/1.html,转载请声明来源钻瓜专利网。