[发明专利]一种说话人聚类方法及相关装置有效
申请号: | 201910104208.0 | 申请日: | 2019-02-01 |
公开(公告)号: | CN109800299B | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 张鹏;胡新辉;徐欣康 | 申请(专利权)人: | 浙江核新同花顺网络信息股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 人聚类 方法 相关 装置 | ||
本申请公开了一种说话人聚类方法,包括:对第一待测语音段和第二待测语音段进行语音特征距离计算,得到语音特征距离;对所述第一待测语音段和所述第二待测语音段进行内容特征距离计算,得到内容特征距离;根据所述内容特征距离在所述语音特征距离中提取说话人特征距离;判断所述说话人特征距离是否小于距离阈值;若是,则将所述第一待测语音段与所述第二待测语音段聚类为同一说话人。通过计算出的内容特征距离从语音特征距离中提取出说话人特征距离,再采用说话人特征距离进行聚类判断,提高说话人聚类的精度和准确率。本申请还公开了一种说话人聚类系统、说话人聚类装置以及计算机可读存储介质,具有以上有益效果。
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种说话人聚类方法、说话人聚类系统、说话人聚类装置以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,语音识别技术越来越多的应用在各种行业场景中。在应用语音识别的场景中,出现多个讲话者,他们的语音内容共同出现在一整段语音中,就需要对该整段语音切分出多个语音段,再将每个语音段进行特征判断,将同一个人的语音段归属于一类中。
现有技术中,通常通过声学特征计算不同语音段的距离,再根据语音段距离的大小区分不同的说话人。但是,这类方法受语音内容的影响较大,性能不稳定,聚类精度不高,严重影响语音识别功能的应用体验。
因此,如何提高语音段的聚类精度是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种说话人聚类方法、说话人聚类系统、说话人聚类装置以及计算机可读存储介质,通过计算出的内容特征距离从语音特征距离中提取出说话人特征距离,再采用说话人特征距离进行聚类判断,提高说话人聚类的精度和准确率。
为解决上述技术问题,本申请提供一种说话人聚类方法,包括:
对第一待测语音段和第二待测语音段进行语音特征距离计算,得到语音特征距离;
对所述第一待测语音段和所述第二待测语音段进行内容特征距离计算,得到内容特征距离;
根据所述内容特征距离在所述语音特征距离中提取说话人特征距离;
判断所述说话人特征距离是否小于距离阈值;
若是,则将所述第一待测语音段与所述第二待测语音段聚类为同一说话人。
可选的,对所述第一待测语音段和所述第二待测语音段进行内容特征距离计算,得到内容特征距离,包括:
采用语音识别模型对所述第一待测语音段进行识别,得到第一音素序列;
采用所述语音识别模型对所述第二待测语音段进行识别,得到第二音素序列;
对所述第一音素序列和所述第二音素序列进行相似度计算,得到音素序列相似度;
根据所述音素序列相似度确定所述内容特征距离。
可选的,对所述第一音素序列和所述第二音素序列进行相似度计算,得到音素序列相似度,包括:
根据编辑聚类算法对所述第一音素序列和所述第二音素序列进行相似度计算,得到所述音素序列相似度。
可选的,对第一待测语音段和第二待测语音段进行语音特征距离计算,得到语音特征距离,包括:
根据贝叶斯信息准则算法对所述第一待测语音段和所述第二待测语音段进行语音特征距离计算,得到所述语音特征距离。
可选的,还包括:
当对所述第一待测语音段和所述第二待测语音段进行语音特征距离计算之前,对接收到的整段对话语音进行切分,得到多个待测语音段。
可选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江核新同花顺网络信息股份有限公司,未经浙江核新同花顺网络信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910104208.0/2.html,转载请声明来源钻瓜专利网。