[发明专利]人声定位方法及电子设备和存储介质在审

申请号：	202211370184.1	申请日：	2022-11-03
公开（公告）号：	CN115713946A	公开（公告）日：	2023-02-24
发明（设计）人：	刘贝易;毛盼盼	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L25/48	分类号：	G10L25/48;G10L25/78;G10L25/30;G10L21/0272;G10L21/0232
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	邓婷婷;黄谦
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人声定位方法电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种人声定位方法，包括：

将获取的音频信号转换为语谱图信号，对所述语谱图信号进行分离；

通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点，并逐帧判断所述语谱图信号中每个方向上人声信号的存在概率，确定人声信号存在概率最大的方向并输出人声信号存在概率最大的方向的掩码信号；

至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息。

2.根据权利要求1所述的方法，其中，所述通过神经网络分别滤除分离后的语谱图信号中每个方向的非人声信号频点，并判断所述语谱图信号中每个方向上人声信号的存在概率包括：

利用神经网络对所述每个方向对应音频通道上的频点进行分类，将归类为非人声信号的频点能量置零；

再通过语音存在概率判断所述每个音频通道上每个频点的人声语音存在概率并输出人声信号存在概率最大的方向的掩码信号，其中，所述每个音频通道上每个频点的人声语音存在概率之和最大的为人声定位的范围。

3.根据权利要求1所述的方法，其中，所述至少基于所述人声信号存在概率最大的方向以及对应的掩码信号估计所述人声信号的方位信息包括：

利用压缩感知的单帧声源定位算法计算所述人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱；

通过语音激活检测对所述人声信号的方位信息进行平滑处理。

4.根据权利要求3所述的方法，其中，所述通过语音激活检测对所述人声信号的方位信息进行平滑处理包括：

基于所述语音激活检测判断当前帧是否为人声帧、人声停顿帧以及人声截止后的静音帧，并根据不同类型帧的方位信息加入对应的平滑处理。

5.根据权利要求3所述的方法，其中，所述利用压缩感知的单帧声源定位算法计算所述人声语音存在概率最大的对应通道上的每一帧信号的精细方位谱包括：

对所述每一帧信号的精细方位谱进行平滑处理，并通过波峰搜寻算法对所述每一帧信号的精细方位谱中的人声进行定位，确认所有帧信号中的人声位置。

6.根据权利要求5所述的方法，其中，所述方法还包括：

若使用所述波峰搜寻算法对所述每一帧信号的精细方位谱中的人声进行定位中存在短暂的停顿帧，则对所述短暂的停顿帧之间填补人声定位信息。

7.根据权利要求1所述的方法，其中，所述将获取的音频信号转换为语谱图信号包括：

通过麦克风设备实时获取带有噪声的音频信号，并通过短时傅里叶变换将所述音频信号转换为语谱图信号，其中，所述带有噪声的音频信号包含所述人声信号以及非人声信号，所述麦克风设备为麦克风阵列组成。

8.根据权利要求1所述的方法，其中，所述利用波束成形算法对所述语谱图信号进行方向分离包括：

使用波束成形算法将所述语谱图信号投影到多个备选方向上，输出多通道的语谱图信号，其中，每个通道对应一个备选方向。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司，未经思必驰科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211370184.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载