[发明专利]音频识别方法、装置、存储介质及电子设备有效

申请号：	201910829472.0	申请日：	2019-09-03
公开（公告）号：	CN110503961B	公开（公告）日：	2023-03-14
发明（设计）人：	蔡猛	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/06
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏嘉熹
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频识别方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种音频识别方法、装置、存储介质及电子设备。所述方法包括：对待识别音频进行人声提取，以获得仅含人声的目标音频，所述待识别音频与目标歌曲相对应；对所述目标音频进行声纹特征提取，以获得目标声纹特征信息；根据所述目标声纹特征信息，确定所述待识别音频是否属于所述目标歌曲的原唱版本，其中，所述目标歌曲的原唱版本来自所述目标歌曲的原唱人。这样，能够更加准确地识别待识别音频属于歌曲的原唱版本还是翻唱版本，提升音频识别的准确性，稳定性高，且受环境影响较小。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种音频识别方法、装置、存储介质及电子设备。

背景技术

用户在利用公共平台上传多媒体内容时，一般需要选择音乐素材。用户在选择素材时，先要进行搜索，而搜索结果往往存在原唱版本与翻唱版本混杂显示的情况。在一些场景中，用户需要知晓搜索结果中哪些是原唱、哪些是翻唱。基于用户的这一需求，在用户搜索时应当向用户区分展示歌曲的原唱版本和翻唱版本，以便用户选择，而这依赖于对素材库中各种歌曲原唱版本与翻唱版本的区分。

相关技术中，一般采用固定音频检测的方式，采集相同的音频，提取音频的二值特征进行哈希计算以区别原唱和翻唱。这种检测方式需要采集相同的音频，受环境干扰较大，并且准确率不高，有时无法准确区分原唱和翻唱。例如，同一首歌曲、同一演唱人的录音室版本与演唱会版本应当均属于该歌曲的原唱版本，但在利用该方案进行处理时，极有可能存在其中一者被误识别为翻唱版本。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

根据本公开的第一方面，提供一种音频识别方法，包括：

对待识别音频进行人声提取，以获得仅含人声的目标音频，所述待识别音频与目标歌曲相对应；

对所述目标音频进行声纹特征提取，以获得目标声纹特征信息；

根据所述目标声纹特征信息，确定所述待识别音频是否属于所述目标歌曲的原唱版本，其中，所述目标歌曲的原唱版本来自所述目标歌曲的原唱人。

根据本公开的第二方面，提供一种音频识别装置，包括：

第一处理模块，用于对待识别音频进行人声提取，以获得仅含人声的目标音频，所述待识别音频与目标歌曲相对应；

第二处理模块，用于对所述目标音频进行声纹特征提取，以获得目标声纹特征信息；

确定模块，用于根据所述目标声纹特征信息，确定所述待识别音频是否属于所述目标歌曲的原唱版本，其中，所述目标歌曲的原唱版本来自所述目标歌曲的原唱人。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现本公开第一方面所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

存储装置，其上存储有计算机程序；

处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面所述方法的步骤

通过上述技术方案，首先对待识别音频进行人声提取，获得仅含人声的目标音频，能够减小背景音乐对识别准确率的影响；之后，对目标音频进行声纹特征提取，获得目标声纹特征信息，能够反映待识别音频说话人的音色；之后，根据目标声纹特征信息，确定待识别音频是否属于目标歌曲的原唱版本。这样，能够更加准确地识别待识别音频属于歌曲的原唱版本还是翻唱版本，提升音频识别的准确性，稳定性高，且受环境影响较小。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司，未经北京字节跳动网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910829472.0/2.html，转载请声明来源钻瓜专利网。

上一篇：语音识别结果的实时上载方法、装置、设备及存储介质
下一篇：语音识别和设定方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频识别方法、装置、存储介质及电子设备有效

专利文献下载