[发明专利]一种声源锁定系统在审
申请号: | 201810153083.6 | 申请日: | 2018-02-22 |
公开(公告)号: | CN108133704A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 陈思应;余杰;孙振奎;陈跃华;何云鹏;高君效 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L15/30;G10L21/0216 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电连接 声源 设备控制电路 语音识别电路 语音识别 锁定 语音播放电路 语音采集电路 语音数据传输 客户隐私 屏蔽 云端 泄露 客户 | ||
本发明涉及语音识别领域,特别是涉及到一种声源锁定系统,由设备、与所述设备电连接的设备控制电路、与所述设备控制电路进行电连接的语音识别电路和语音播放电路,与所述语音识别电路电连接的语音采集电路组成,使用该系统的设备能够屏蔽声源以外所发出的声音并可不用将客户的语音数据传输至云端,提高语音识别的准确性并避免泄露客户隐私。
技术领域
本发明涉及智能语音识别技术领域,特别是涉及到一种能够利用DNN算法确定声源位置的声源锁定系统。
背景技术
语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸,到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互,原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互,语音交互作为最有效的沟通控制方式,在家用方面,它可以帮助用户把家中的各种终端设备无缝连接起来,如智能语音微波炉,用户通过简单的语音命令即可控制微波炉进行不同的工作。
从商业化的角度来看,根据识别的距离可将语音识别分为近场和远场,目前业界所做的近场人对机器说话的识别准确率可达90%以上,但在远场景的识别就不尽人意,对于一些工作在特定区域内的电子设备要求其对特定区域内的噪音具有有较好的抑制,且使用距离要求在2-5米内,这对近场语音识别技术而言很难做到。
现有技术的缺点在于:
一般的智能语音设备要求在近场使用,但是当声源与设备的距离在2-5米之内时,声源的语音识别准确率较低。
发明内容
为了解决上述远场景的语音识别问题,发明了一种能够确定声源与设备之间距离的声源锁定系统。
一种声源锁定系统,其包括设备、与所述设备电连接的设备控制电路、与所述设备控制电路进行电连接的语音识别模块和语音播放模块,与所述语音识别模块电连接的语音采集模块。
作为本发明的优选方案,所述语音识别模块由语音处理电路和声源锁定电路组成,所述语音处理电路分析并处理所述语音采集模块采集来的所述语音数据,所述声源锁定电路根据所述语音处理电路的处理结果锁定声源的位置。
作为本发明的优选方案,所述语音识别模块中嵌入有语音识别引擎,所述语音识别引擎使用DNN算法进行语音识别,所述DNN算法包括有语音预处理、特征提取、形成发音字典及建立语音模型等四个过程,其中语音预处理过程包括对语音信号或语音数据的采样、反混叠滤波、语音增强和端点检测,特征提取过程的作用是从语音信号或语音数据的波形中提取一组能够描述语音信号或语音数据特征的参数,以便训练和识别,形成发音字典则是根据发音的音素,得到相应的文本集合即为发音字典,建立语音模型则是利用语法知识调整声学模型所识别出的不合逻辑的词语。
作为本发明的优选方案,所述语音采集模块包含有N个语音采集元件,所述N为大于等于2的正整数,N个所述语音采集元件根据客户需求进行排列,可以进行横排也可以进行竖排,所述语音播放模块包含有M各语音播放元件,。
所述语音采集设备之间的距离为b,C为声速,所述语音采集设备与所述声源之间的几何关系确定出声源的偏角θ,sinθ =ITD(θ )*C/d。
为了使音频数据容易被神经网络处理,需要把复杂的声波分解成一个个组成部分,为实现声波分解,需要利用到傅里叶变换,傅立叶变换将复杂的声波分解为简单的声波,然后将每一份频段所包含的能量加在一起,得到的结果便是从低音到高音的一个频谱,再将该频谱输入深度神经网络,对于每个小的音频切片,神经网络都将尝试找出当前正在说的声音所对应的声母或韵母,当通过神经网络跑完我们的整个音频剪辑之后,最终得到一份映射,其中标明了每个音频块和其最有可能对应的声母或韵母,然后将这些基于发音的预测与基于标注的文本数据库的可能性得分相结合,去掉最不可能的结果,留下最实际的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810153083.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手机控制系统
- 下一篇:基于对偶学习的语音识别与语音合成模型训练方法