[发明专利]语音采集方法、装置、计算机设备和存储介质有效
申请号: | 201811172477.2 | 申请日: | 2018-10-09 |
公开(公告)号: | CN109256137B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 陈东鹏 | 申请(专利权)人: | 深圳市声扬科技有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L21/0208;G10L25/60 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 采集 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音采集方法、装置、计算机设备及存储介质,接收音频流,将所述音频流分割为多个语音片段;提取所述多个语音片段的声纹特征;将所述多个语音片段的声纹特征进行两两比对,得到所述音频流对应的分数矩阵,所述分数矩阵用于表示语音片段两两之间相似度对应的分数;根据所述分数矩阵对所述声纹特征进行聚类,得到多种声源对应的语音片段数量;根据语音片段数量最大的声源,提取相应的语音片段。采用本方法能够避免因语音质量问题增加后期人工操作,提高了语音采集效率。
技术领域
本申请涉及语音技术领域,特别是涉及一种语音采集方法、装置、计算机设备和存储介质。
背景技术
随着语音技术的发展,对于语音的要求越来越高,语音采集作为语音机器学习模型训练的基础和重要环节,需要对语音质量进行严格把控。在语音采集过程中,语音质量极易受到各种因素的影响。例如,语音中混入噪声。但是,该混入噪声的语音中大部分语音片段是合格的。然而,在传统的语音采集方式中,即使混入噪声的语音中大部分语音片段是合格的,也会被认定为整段语音不合格。为了将不合格的小部分语音去除,需要进行人工剪辑,或是将整段语音放弃进行重新采集,费时费力,存在语音采集效率较低的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音采集效率的语音采集计算方法、装置、计算机设备和存储介质。
一种语音采集方法,所述方法包括:
接收音频流,将所述音频流分割为多个语音片段;
提取所述多个语音片段的声纹特征;
将所述多个语音片段的声纹特征进行两两比对,得到所述音频流对应的分数矩阵,所述分数矩阵用于表示语音片段两两之间相似度对应的分数;
根据所述分数矩阵对所述声纹特征进行聚类,得到多种声源对应的语音片段数量;
根据语音片段数量最大的声源,提取相应的语音片段。
在其中一个实施例中,所述将所述音频流分割为多个语音片段,包括:
根据机器学习模型中的历史数据识别所述音频流中的多个语句的结尾;将所述多个语句的结尾作为多个语音片段的分割点;利用所述多个语音片段的分割点,将所述音频流分割为多个语音片段。
在其中一个实施例中,所述将所述多个语音片段的声纹特征进行两两比对,得到所述音频流对应的分数矩阵,所述分数矩阵用于表示语音片段两两之间相似度对应的分数,包括:
将所述多个语音片段的声纹特征进行两两比对,得到多个声纹特征向量之间的距离;
利用所述多个声纹特征向量之间的距离生成所述多个语音片段之间的距离关系;
根据所述多个语音片段之间的距离关系计算语音片段两两之间相似度对应的分数;
根据所述语音片段两两之间相似度对应的分数生成所述音频流对应的分数矩阵。
在其中一个实施例中,所述根据所述分数矩阵对所述声纹特征进行聚类,得到多种声源对应的语音片段数量,包括:
根据所述分数矩阵对所述声纹特征进行聚类,并得到所述分数矩阵中同行或同列分数在预设分数阈值以上的数量,将所述数量在预设数量以下的所述同行或同列分数对应的语音片段去除,得到多种声源对应的语音片段数量。
在其中一个实施例中,所述声源还包括噪声声源,在所述根据分数矩阵对所述声纹特征进行聚类,得到多种声源对应的语音片段数量,还包括:
对所述噪声声源进行过滤;
识别过滤后的声源中同种声源对应的语音片段数量。
一种语音采集装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市声扬科技有限公司,未经深圳市声扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811172477.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别方法和装置
- 下一篇:身份验证方法、终端设备及计算机可读存储介质