[发明专利]声源距离确定方法及装置有效

申请号：	201610425685.3	申请日：	2016-06-14
公开（公告）号：	CN107507625B	公开（公告）日：	2021-03-05
发明（设计）人：	喻涛;潘嘉;王海坤;王智国;胡国平;胡郁;刘庆峰	申请（专利权）人：	讯飞智元信息科技有限公司
主分类号：	G10L25/18	分类号：	G10L25/18;G10L25/30;G10L25/75;G10L21/028
代理公司：	北京维澳专利代理有限公司 11252	代理人：	刘路尧;逢京喜
地址：	230088 安徽省合肥市高***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声源距离确定方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种声源距离确定方法及装置，该方法包括：接收用户语音信号；提取所述语音信号的频谱特征；将所述频谱特征输入预先构建的语音分离模型，得到所述语音信号的混响冲击函数系数特征；将所述频谱特征输入预先构建的语音环境分析模型，得到所述语音信号的语音环境信息；基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。利用本发明，可以提高距离测定的准确性，而且无需借助第三方传感器。

技术领域

本发明涉及语音信号处理领域，具体涉及一种声源距离确定方法及装置。

背景技术

随着人工智能技术的进步，人机语音交互也取得了长足的发展，各种语音助手APP和人机交互机器人大肆兴起。语音识别作为语音交互中必不可少的功能之一，其识别效果很大一部分取决于录音质量，现有的语音识别装置在录音质量较差时，往往整体识别效果会急剧下降，严重影响用户体验。因而，作为提升语音录音质量方法之一的：根据用户语音输入距离提醒和/或纠正用户语音输入习惯(如离麦克风近一些)，对语音识别乃至整个语音交互体验尤为重要。

现有的声源距离判断主要有以下两种场景：

1、多麦克风场景，多是根据麦克风阵列硬件布置，以及各麦克风接收声源语音信号的时差，进行声源与各麦克风距离的判断。

2、单麦克风场景，多是采用第三方传感器测定声源与麦克风的距离，如红外测距、多摄像头测距等。

对于多麦克风场景，为了追求外观的精致，现在的收音设备尺寸越来越小，随之带来了因麦克风阵列集中而导致声源距离判定不准确的问题，比如，假设两个麦克风相距5cm，此时可能对于距离3米或5米的语音信号，其响应效果相差甚微，此时通过传统的距离判断方法其测定的距离准确性较差。对于单麦克风场景，现有的单麦克设备只能借助第三方传感器进行声源距离测定，因而需要更大的硬件成本和设计投入。

发明内容

本发明提供一种声源距离确定方法及装置，以解决现有的单麦克只能借助第三方传感器进行距离测定所带来的投入成本高的问题，以及多麦克受限于麦克风阵列硬件布局集中所带来的距离测定不准确的问题。

为此，本发明提供如下技术方案：

一种声源距离确定方法，包括：

接收用户语音信号；

提取所述语音信号的频谱特征；

将所述频谱特征输入预先构建的语音分离模型，得到所述语音信号的混响冲击函数系数特征；并且将所述频谱特征输入预先构建的语音环境分析模型，得到所述语音信号的语音环境信息；

基于所述混响冲击函数系数特征、语音环境信息以及预先构建的声源距离判定模型得到用户语音与麦克风的距离信息。

优选地，所述语音分离模型、语音环境分析模型、以及声源距离判定模型采用前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合。

优选地，所述方法还包括按以下方式构建语音分离模型：

确定语音分离模型的拓扑结构，所述拓扑结构包括输入层、隐层和输出层，所述输入层的输入包括：带噪带混响语音数据的频谱特征，所述输出层的输出包括：混响冲击函数系数特征；

获取训练数据，所述训练数据为带噪带混响的语音数据；

提取所述训练数据的频谱特征；

基于所述训练数据的频谱特征，训练得到语音分离模型。

优选地，所述方法还包括按以下方式构建语音环境分析模型：

确定语音环境分析模型的拓扑结构，所述拓扑结构包括输入层、隐层和输出层，所述输入层的输入包括：带噪带混响语音数据的频谱特征，所述输出层的输出包括：房间因子T60信息；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于讯飞智元信息科技有限公司，未经讯飞智元信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610425685.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声源距离确定方法及装置有效

专利文献下载