[发明专利]一种音频提取方法、装置、设备和存储介质在审

申请号：	202111328474.5	申请日：	2021-11-10
公开（公告）号：	CN114049898A	公开（公告）日：	2022-02-15
发明（设计）人：	郭震;李良斌;陈孝良	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L25/51
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	鲁梅
地址：	100094 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频提取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种音频提取方法、装置、设备和存储介质，在音频提取过程中，由将待处理音频中一段目标对象的语音音频作为注册音频，对所述待处理音频进行切分，得到多个窗口片段，再对窗口片段与注册音频进行相似度分析，最后基于当前窗口片段以及与当前窗口片段相邻的窗口片段与所述注册音频的相似度，判断所述当前窗口片段是否为目标对象的语音音频，从而实现了目标对象的语音音频的精准提取。

技术领域

本发明涉及音频处理技术领域，具体涉及一种基于声纹模型的特定说话人音频的音频提取方法、装置、设备和存储介质。

背景技术

为了得到一段语音中的目标对象的语音音频，需要通过特定的技术手段将由该段语音中提取目标对象的语音音频。

在现有方案中，通常采用语音分割聚类方法对目标对象的音频信息进行提取，该方法基本应用于多人接连说话的场景。但是语音分割聚类方法的目标在于将所有说话人的音频都区分开，将原有音频分割聚类成多段音频。而原有音频中说话人个数是不确定的，在获取到多段待处理音频的声纹信息特征后，聚类算法并不指定聚类的类数，因此实际应用中的聚类效果并不理想，可能会将两人对话的音频聚成多类，而且聚类后的音频也并不纯净，会混有他人的声音。

如何从录音中准确的提取目标对象的音频内容，成为本领域亟待解决的技术问题之一。

发明内容

有鉴于此，本发明实施例提供一种音频提取方法、装置、设备和存储介质，以实现对目标对象的语音音频的提取。

为实现上述目的，本发明实施例提供如下技术方案：

一种音频提取方法，包括：

获取待处理音频和注册音频，所述注册音频为所述待处理音频中的一段目标对象的语音音频；

对所述待处理音频进行切分，得到多个窗口片段；

提取所述注册音频以及所述窗口片段的特征向量；

对所述窗口片段的特征向量与所述注册音频的特征向量进行相似度分析；

基于当前窗口片段以及与当前窗口片段相邻的窗口片段与所述注册音频的特征向量的相似度，判断所述当前窗口片段是否为目标对象的语音音频；

将目标对象的语音音频确定为提取音频。

可选的，上述音频提取方法中，基于当前窗口片段以及与当前窗口片段相邻的窗口片段与所述注册音频的特征向量的相似度，判断所述当前窗口片段是否为目标对象的语音音频，包括：