[发明专利]一种基于声纹识别的智能锁及其语音识别方法和系统在审
申请号: | 201710692968.9 | 申请日: | 2017-08-14 |
公开(公告)号: | CN107240397A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 王炜婷;温坤华;朱慧广;陈俊 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/14;G07C9/00 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 510062 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 识别 智能 及其 语音 方法 系统 | ||
技术领域
本发明涉及信号处理技术领域,特别涉及一种基于声纹识别的智能锁的语音识别方法。本发明还涉及一种基于声纹识别的智能锁的语音识别系统。本发明还涉及一种包括上述语音识别系统的基于声纹识别的智能锁。
背景技术
随着入室盗窃事件时常发生,如何升级家居门锁,确保室内的安全,是人们不得不应对的新挑战。
目前,市面上传统的家居门锁基本采用钥匙解锁、密码解锁,由于钥匙易丢失、易复制、特征性不强等特点,同样的,密码解锁存在易遗忘密码,密码易泄露的缺点,容易造成资源浪费的同时给用户带来安全隐患。另外,现有采用其他生物认证技术的智能化设备如指纹识别,虹膜识别等,成本高,具有接触性的不便性、不卫生,例如指纹识别需要将手指放在传感器上、虹膜识别需要将眼睛凑近摄像头,不能提供很好的用户体验且给用户造成经济负担。
在现有技术中,已经出现了基于声纹识别的智能门锁。声纹锁是基于声音的模式识别,跟指纹锁有异曲同工之用。只要主人说出事先设定的暗语就能把锁打开,别人即使说出暗语也打不开,这种声纹锁辨别声音的主要依据是音色。但是,由于大多数声纹锁对声音的识别和验证往往只采用GMM模型(Gaussian Mixture Model,高斯混合模型)方法训练方法,实验表明,只采用GMM说话人识别模型,在训练和测试时的语音上下文内容对识别结果有很大的影响。当非目标说话人的识别语音上下文和目标说话人识别语音上下文较接近的时候,用该语音进行目标说话人测试时,错误接受的概率会大大的提高。
因此,如何提高声纹锁对目标说话人的识别率,降低错误接受概率,保证门锁安全性能,是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的是提供一种基于声纹识别的智能锁的语音识别方法,能够提高声纹锁对目标说话人的识别率,降低错误接受概率,保证门锁安全性能。本发明的另一目的是提供一种基于声纹识别的智能锁的语音识别系统和一种包括上述语音识别系统的基于声纹识别的智能锁。
为解决上述技术问题,本发明提供一种基于声纹识别的智能锁的语音识别方法,包括:
提取待验证语音信号对应的梅尔倒谱系数;
将所述梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为所述梅尔倒谱系数的特征向量;
将所述特征向量与各个注册语音信号预先构建的高斯混合模型进行对比,并计算所述特征向量分别与各个注册语音信号相匹配的后验概率;
判断各所述后验概率中的最大值是否大于预设阈值,如果是,则待验证语音信号通过验证,并对锁具进行开锁操作;反之则使锁具保持锁定状态。
优选地,在提取待验证语音信号对应的梅尔倒谱系数之前,还包括:
对智能锁的注册人进行注册语音录入,并对输入的各个注册语音信号构建高斯混合模型。
优选地,对输入的各个注册语音信号构建高斯混合模型,具体包括:
提取各个注册语音信号对应的梅尔倒谱系数,并对输入的各个所述注册语音信号进行预设编号绑定;
将各个所述注册语音信号对应的梅尔倒谱系数作为输入层,同时将各个所述注册语音信号绑定的编号作为输出层,进行区分深度置信网络训练,并获得所述区分深度置信网络的参数空间;
将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出,并将其作为各个所述注册语音信号对应的梅尔倒谱系数的特征向量;
将各所述特征向量作为输入,并以最大期望算法为准构建高斯混合模型。
优选地,提取待验证语音信号或各个注册语音信号对应的梅尔倒谱系数,具体包括:对待验证语音信号或各个注册语音信号依次进行预加重、加汉明窗、通过维纳滤波法进行去噪、进行快速傅里叶变换、通过三角带通滤波器进行滤波和离散余弦转换。
优选地,在将各个所述注册语音信号对应的梅尔倒谱系数输入所述区分深度置信网络,以获得所述区分深度置信网络的隐层输出后,还包括:
通过公式:
校核所述区分深度置信网络的隐层输出质量,若D的值大于预设阈值,则隐层输出质量满足预设要求;
其中,D为区分度,Li为各注册语音信号对应的特征向量的对应权值,Si为矩阵S中的元素,S=Sb-Sw,Sb为类内离散度矩阵,Sw为类间离散度矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710692968.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音合成方法
- 下一篇:智能语音交互方法及装置