[发明专利]一种基于聚类的说话人确定方法、确定装置及电子设备有效
申请号: | 202110202542.7 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112562693B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 郑榕;郑尧曦 | 申请(专利权)人: | 北京远鉴信息技术有限公司 |
主分类号: | G10L17/08 | 分类号: | G10L17/08;G10L17/06;G10L17/04;G10L17/02;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 刘凤 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 说话 确定 方法 装置 电子设备 | ||
1.一种基于聚类的说话人确定方法,其特征在于,所述确定方法包括:
获取待识别声音信息,确定所述待识别声音信息对应的多个声音识别片段;
根据所述多个声音识别片段对应的全部待识别声纹信号,确定所述待识别声音信息对应的第一聚类结果与说话人数量;
根据全部所述待识别声纹信号与所述说话人数量,确定所述待识别声音信息对应的第二聚类结果;
根据所述第一聚类结果与第二聚类结果,确定所述第一聚类结果与第二聚类结果对应的目标分类结果;
根据所述目标分类结果确定每个所述声音识别片段对应的说话人;
其中,根据以下方法确定所述待识别声音信息对应的第一聚类结果与说话人数量:
针对每一个所述待识别声纹信号,确定该待识别声纹信号对应的声谱图特征;
将所述声谱图特征输入至训练好的声纹网络模型中,确定所述待识别声纹信号对应的第一声纹嵌入向量;
根据各个待识别声纹信号对应的第一声纹嵌入向量,确定所述第一聚类结果与说话人数量;
根据以下方法确定所述说话人数量:
确定多个待识别声纹信号中每两个待识别声纹信号分别对应的第一声纹嵌入向量之间的欧式距离;
将确定出的每一个欧式距离进行尺度变换,确定每两个第一声纹嵌入向量对应的相似度;
根据确定出的每一个相似度,确定所述第一声纹嵌入向量对应的邻接矩阵,并根据所述邻接矩阵及预设聚类类数,确定旋转特征矩阵;
根据所述旋转特征矩阵确定代价函数,并在所述预设聚类类数的范围内迭代处理所述代价函数,直至相邻两次迭代过程中的代价函数对应的梯度变化小于预设梯度变化阈值;
确定停止迭代时所述代价函数对应的聚类类数为所述说话人数量。
2.根据权利要求1所述的确定方法,其特征在于,根据以下方法确定所述待识别声音信息对应的第二聚类结果:
针对每一个所述待识别声纹信号,确定该待识别声纹信号对应的梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入至训练好的概率统计模型中,确定该待识别声纹信号对应的统计量;
对所述梅尔频率倒谱系数特征进行总体方差矩阵变换,确定第二声纹嵌入向量;
根据全部所述统计量及第二声纹嵌入向量,确定所述第二聚类结果。
3.根据权利要求1所述的确定方法,其特征在于,所述确定所述第一聚类结果与第二聚类结果对应的目标分类结果,包括:
确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集与多个差异聚类子集;
针对每一个所述相同聚类子集,确定所述相同聚类子集对应的相同聚类簇;
针对每一个所述差异聚类子集,确定该差异聚类子集与每一个所述相同聚类簇之间的距离;
将所述差异聚类子集重新归类于距离最小的所述相同聚类簇,生成所述第一聚类结果与第二聚类结果对应的目标分类结果。
4.根据权利要求1所述的确定方法,其特征在于,所述确定所述第一聚类结果与第二聚类结果对应的目标分类结果,还包括:
确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集;
根据所述多个相同聚类子集,调整所述邻接矩阵对应的多个所述第一声纹嵌入向量之间邻接边的相似度;
根据所述相似度,确定所述第一声纹嵌入向量对应的调整邻接矩阵;
确定所述调整邻接矩阵对应的谱聚类结果,将所述谱聚类结果确定为所述第一聚类结果与第二聚类结果对应的目标分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京远鉴信息技术有限公司,未经北京远鉴信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110202542.7/1.html,转载请声明来源钻瓜专利网。