[发明专利]重叠语音识别方法、装置、计算机设备和存储介质有效
申请号: | 201911324160.0 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111145782B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 周维聪 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/87;H04M3/51 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 唐彩琴 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重叠 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种重叠语音识别方法,所述方法包括:
获取客服人员与用户之间语音通话的音频流;
通过语音检测模型检测所述音频流中的语音段;
通过话者转换模型识别所述语音段中的话者转换点以及语音重叠点;
利用所述话者转换点以及所述语音重叠点将所述语音段切分为多个语音子段;所述语音子段包括单语音子段和重叠语音子段;所述重叠语音子段中包括所述语音重叠点;
对多个所述单语音子段进行聚类,得到每个单语音子段对应的类别标签;
对所述单语音子段进行关键字检索,确定所述类别标签对应的身份;
根据所述单语音子段和所述重叠语音子段的顺序,以及所述类别标签对应的身份,识别与所述客服人员对应的重叠语音子段。
2.根据权利要求1所述的方法,其特征在于,所述通过语音检测模型检测所述音频流中的语音段包括:
通过语音检测模型检测所述音频流中的语音信号;
根据所述语音信号进行语音端点检测和语音识别,得到所述语音信号对应的语音端点信息;
根据所述语音端点信息将所述语音信号生成对应的语音段。
3.根据权利要求1所述的方法,其特征在于,所述通过话者转换模型识别所述语音段中的话者转换点以及语音重叠点,包括:
利用预设时长的窗口,在所述语音段中提取每个窗口的语音特征;
将所述语音段中的所述语音特征输入所述话者转换模型,通过所述话者转换模型进行运算,输出所述语音段中的话者转换点以及语音重叠点。
4.根据权利要求1所述的方法,其特征在于,所述利用所述话者转换点以及所述语音重叠点将所述语音段切分为多个语音子段,包括:
获取所述语音段对应的时长序列;
获取所述话者转换点对应的转换时刻以及所述语音重叠点对应的重叠时刻;
将所述转换时刻与所述重叠时刻插入至所述时长序列,生成多个子序列;
根据所述子序列将所述语音段切分为对应的语音子段。
5.根据权利要求1所述的方法,其特征在于,所述话者转换模型包括有监督训练得到的神经网络,所述话者转换模型通过如下步骤进行训练:
获取多个样本音频流;
利用预设时长的窗口,在所述样本音频流中提取与每个窗口对应的语音特征;
对所述语音特征添加对应的语音标签;所述语音标签包括话者转换标签以及语音重叠标签;
利用所述话者转换标签、所述语音重叠标签以及对应的语音特征对所述神经网络进行有监督的训练,得到所述话者转换模型。
6.根据权利要求1所述的方法,其特征在于,所述对多个所述单语音子段进行聚类,得到每个单语音子段对应的类别标签包括:
对多个所述单语音子段进行聚类,得到单语音子段对应的身份类别;
向每一个身份类别的多个单语音子段添加对应的类别标签。
7.根据权利要求1所述的方法,其特征在于,所述对所述单语音子段进行关键字检索,确定所述类别标签对应的身份包括:
将所述单语音子段的音频信息转换为文本信息;
利用预设的关键字在所述文本信息中进行检索;
根据所述关键字与身份的对应关系,确定所述类别标签对应的身份。
8.根据权利要求1所述的方法,其特征在于,所述根据所述单语音子段和所述重叠语音子段的顺序,以及所述类别标签对应的身份,识别与所述客服人员对应的重叠语音子段包括:
当重叠语音子段的前一个单语音子段对应的身份为用户,后一个单语音子段对应的身份为客服时,确定所述重叠语音子段为客服人员抢话的重叠语音子段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324160.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力价格预测的方法以及装置
- 下一篇:锂离子电池制备方法及其锂电池