[发明专利]一种重叠音检测方法及相关装置在审

申请号：	201910104603.9	申请日：	2019-02-01
公开（公告）号：	CN109599125A	公开（公告）日：	2019-04-09
发明（设计）人：	刘建敏;胡新辉;徐欣康	申请（专利权）人：	浙江核新同花顺网络信息股份有限公司
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/51;G10L25/03
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	310000 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音检测训练数据音标非重叠计算机可读存储介质神经网络模型神经网络训练音检测系统叠加处理检测结果相关装置训练过程训练效果语音序列检测申请语音
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种重叠音检测方法，包括：采用重叠音检测模型对多个语音序列进行检测，得到检测结果；其中，重叠音检测模型的训练过程包括：对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；根据多个非重叠音序列对多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；根据重叠音标注训练数据和多个非重叠音序列进行神经网络训练，得到重叠音检测模型。通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。本申请还公开了一种重叠音检测系统、重叠音检测设备以及计算机可读存储介质，具有以上有益效果。

技术领域

本申请涉及语音识别技术领域，特别涉及一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，语音识别技术越来越多的应用在各行各业中。当应用在电话销售领域中时，销售人员需要通过固定电话和客户进行通话，两个人的整体通话过程是被录音保存成一个单声道的语音文件。为了及时获取客户的动态以及了解销售的服务状态，在后台处理中会对上传的单声道语音进行语音识别和说话人分割聚类，以便获取到进行服务沟通时的信息。

但是，在记录的语音文件中经常会存在销售人员和客户同时说话的情况，导致在语音文件中记录了重叠音。语音文件中记录的这些重叠音会直接导致语音识别和说话人聚类的性能下降，为了提高语音识别和说话人分割聚类效果，以便提高识别精度和服务质量，就需要在语音序列中将重叠音检测出来。

现有技术中，通常使用高斯混合模型进行重叠音检测。但是高斯混合模型的模拟能力相当于1至2层的浅层神经网络，无法模拟复杂的高维特征如语音语调变化、方言的特殊发音等。导致检测准确率差，鲁棒性较弱，无法精确的进行重叠音检测，进而无法提升语音识别和说话人分割聚类的效果。

因此，如何提高重叠音检测的准确率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种重叠音检测方法、重叠音检测系统、重叠音检测设备以及计算机可读存储介质，通过训练得到的深度神经网络模型进行重叠音检测提高了检测精度，并且可以生成训练数据进一步提高训练效果。

为解决上述技术问题，本申请提供一种重叠音检测方法，包括：

将待检测语音切分为多个语音序列；

采用重叠音检测模型对所述多个语音序列进行检测，得到检测结果；

根据所述检测结果对对应的语音序列进行重叠音标注，得到已标注重叠音序列；

其中，所述重叠音检测模型的训练过程包括：

对多个非重叠音序列进行语音叠加处理，得到多个重叠音序列；

根据所述多个非重叠音序列对所述多个重叠音序列进行重叠音标注，得到重叠音标注训练数据；