[发明专利]一种音频数据处理的方法及装置在审
申请号: | 201811558661.0 | 申请日: | 2018-12-19 |
公开(公告)号: | CN111414669A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 黄智超;吴本谷 | 申请(专利权)人: | 北京猎户星空科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G10L15/22 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100144 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 数据处理 方法 装置 | ||
本申请提供一种音频数据处理的方法及装置,其中所述方法包括:确定镜像算法所需的仿真参数;根据所述镜像算法和所述仿真参数,生成房间冲激响应;根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据,从而与现有技术相比,仿真过程中得到丰富的卷积核,并且音频数据的范围可变,能覆盖大部分房间和情况,从而获得较好的远场音频效果。
技术领域
本申请涉及语音识别技术领域,特别涉及一种音频数据处理的方法及装置。
背景技术
随着智能设备的普及,语音识别的应用场合也越来越多。现有技术中,语音识别一般是收集近场数据,然后对近场数据进行标注,然后训练得到声学模型。然后在收到语音后,通过训练得到的声学模型对语音进行识别,获取到清晰的语音信息。
但是在实际的应用场景下,人离麦克风较远都大于50cm,甚至3m,由于传输距离较长,而且语音中会包含更多的干扰,导致语音识别的准确率大幅下降,不能得到较佳的语音处理结果。
发明内容
有鉴于此,本申请实施例提供了一种音频数据处理的方法及装置,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种音频数据处理的方法,包括:
确定镜像算法所需的仿真参数;
根据所述镜像算法和所述仿真参数,生成房间冲激响应;
根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
可选地,所述仿真参数包括:房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种;
其中,所述仿真房间的参数包括:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
可选地,根据所述镜像算法和所述仿真参数,生成房间冲激响应,包括:
根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数;
根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
可选地,所述仿真房间内的各个墙壁的反射次数通过以下方法获取:
获取所述播放源的镜像点相对于所述播放源的仿真位置;
获取所述仿真房间内的各个墙壁的反射阶数;
根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
可选地,根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据,包括:
获取噪声数据;
根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据。
可选地,根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据,包括:
将所述房间冲激响应和所述近场音频数据进行卷积;
将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
可选地,所述噪声数据通过录制或仿真的方式获得。
可选地,本申请的音频数据处理的方法还包括:
获取所述近场音频数据的标签;
将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猎户星空科技有限公司,未经北京猎户星空科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811558661.0/2.html,转载请声明来源钻瓜专利网。