[发明专利]一种音频识别方法、装置及电子设备在审
申请号: | 202111138660.2 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113782034A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 于洋 | 申请(专利权)人: | 镁佳(北京)科技有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/18;G10L17/22;G10L21/0272;G10L25/18 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 识别 方法 装置 电子设备 | ||
1.一种音频识别方法,其特征在于,包括:
获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;
对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;
将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;
对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
2.根据权利要求1所述的方法,其特征在于,提取所述预设唤醒音频特征的过程,包括:
对所述唤醒音频进行傅里叶分析,得到所述唤醒音频的傅里叶频谱;
将所述傅里叶频谱进行滤波得到滤波后的频谱;
基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述傅里叶频谱和滤波后的频谱得到所述唤醒音频特征,包括:
将所述傅里叶频谱和滤波后的频谱进行点乘,并对点乘后的频谱取对数得到所述唤醒音频特征。
4.根据权利要求1所述的方法,其特征在于,所述获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频,包括:
将所述混合音频进行编码,将编码后的混合音频输入到分离掩码模块,得到掩码矩阵;
将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。
5.根据权利要求1所述的方法,其特征在于,所述将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果,包括:
将所述预设唤醒音频特征和所述单音频的音频特征输入到声纹模型,得到所述唤醒人音频和所述单音频的相似度分数。
6.根据权利要求1所述的方法,其特征在于,提取所述单音频的音频特征的步骤,包括:
对所述至少一单音频进行傅里叶分析,得到所述至少一单音频的傅里叶频谱;
将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱;
基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。
7.一种音频识别装置,其特征在于,包括:
获取模块,用于获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;
特征提取模块,用于对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;
对比模块,用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;
输出模块,用于对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6任一所述的音频识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的音频识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镁佳(北京)科技有限公司,未经镁佳(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111138660.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信贷业务数据处理方法和相关装置
- 下一篇:一种配有辅助装置的电动机保护器