[发明专利]声纹聚类方法、装置、电子设备和计算机可读存储介质有效
申请号: | 201911416676.8 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111243601B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 汪法兵;李健;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/14;G10L17/22;G06F18/23213 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明提供了一种声纹聚类方法、装置、电子设备和计算机可读存储介质,涉及声纹识别技术领域。本发明提供的声纹聚类方法,可以利用现有的聚类声纹库,在现有的聚类声纹库的基础上执行本发明实施例的方法,节约在声纹库中做声纹辨认的时间,并且采用本申请实施例的声纹聚类方法,可以将原始声纹同时聚类到多个可能存在的第二声纹类别中,在大规模聚类声纹库中对待识别声纹进行识别时,保证根据待识别声纹查找到的目标声纹类别中存在该原始声纹,在减少声纹识别时间的同时,也能够保证声纹识别时的准确率。
技术领域
本发明涉及声纹识别技术领域,特别是涉及一种声纹聚类方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,在公共安全和金融安全领域,声纹应用越来越广泛。但是,随着声纹应用越来越广泛,导致用户声纹数据巨大,声纹库规模往往达到100万,1000万或者更大规模。在声纹库中进行声纹辨认时耗用时间与声纹库规模成正比,因此,声纹库规模较大时,做声纹识别需要耗费大量时间,导致声纹识别效率低,同时,在声纹库规模较大时,做声纹识别准确率也比较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种声纹聚类方法、装置、电子设备和计算机可读存储介质。
依据本发明的第一方面,提供了一种声纹聚类方法,该方法包括:
获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
获取所述原始声纹的声纹矢量;
确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。
可选地,根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,包括:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|thr,则vk∈ci,vk∈cj;
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
可选地,在获取聚类声纹库之前,所述方法还包括:
利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
可选地,在将所述原始声纹同时聚类到所述第二声纹类别之后,所述方法还包括:
根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
获取待识别声纹;
根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
可选地,所述根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,包括:
获取所述待识别声纹的声纹矢量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911416676.8/2.html,转载请声明来源钻瓜专利网。