[发明专利]声纹聚类方法、装置、电子设备和计算机可读存储介质有效
申请号: | 201911416676.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111243601B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 汪法兵;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/14;G10L17/22;G06F18/23213 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种声纹聚类方法,其特征在于,所述方法包括:
获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
获取所述原始声纹的声纹矢量;
确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别;
根据每个所述原始声纹的第二声纹类别,将所述原始声纹复制到所述第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库。
2.根据权利要求1所述的方法,其特征在于,根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,包括:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|thr,则vk∈ci,vk∈cj;
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
3.根据权利要求1所述的方法,其特征在于,在获取聚类声纹库之前,所述方法还包括:
利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
4.根据权利要求1-3任一项所述的方法,其特征在于,在获得所述原始声纹的第二声纹类别之后,所述方法还包括:
根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
获取待识别声纹;
根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,包括:
获取所述待识别声纹的声纹矢量;
获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量;
确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度;
将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
6.一种声纹聚类装置,其特征在于,所述装置包括:
第一获取模块,用于获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
第二获取模块,用于获取所述原始声纹的声纹矢量;
第一确定模块,用于确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
第二声纹类别获得模块,用于根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别;
所述装置还包括:
更新模块,用于根据每个所述原始声纹的第二声纹类别,将所述原始声纹复制到所述第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416676.8/1.html,转载请声明来源钻瓜专利网。