[发明专利]一种语音唤醒的判断方法、装置及电子设备有效
申请号: | 201910816082.X | 申请日: | 2019-08-30 |
公开(公告)号: | CN110415699B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 陈孝良;靳源;冯大航;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/14;G10L15/06;G10L15/02;G10L15/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王欢 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 唤醒 判断 方法 装置 电子设备 | ||
1.一种语音唤醒的判断方法,其特征在于,包括:
获取输入语音;
第一模型根据所述输入语音判断是否唤醒;
若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;
将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型;
所述返回唤醒长度,确定唤醒语音段,包括:
确定所述输入语音中每一帧音素的后验概率;
基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件;
若满足,记录唤醒时间点;
确定唤醒词的起始时间点;所述唤醒词的起始时间点为开始接收所述唤醒词第一个字的第一个音素的时间点;
基于所述唤醒时间点和所述起始时间点确定唤醒长度,并确定唤醒语音段。
2.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述确定唤醒词的起始时间点,包括:
确定所述唤醒时间点前预设时间内的唤醒词的第一个字的各个音素在所述唤醒语音段的每一帧中的后验概率;
以帧为单位,将所述第一个字的各个音素的后验概率相加,得到所述第一个字的各个音素在每一帧中的概率和;
确定概率和最大值对应的第一帧数;
将所述第一帧数对应的时间点加上预设的修正值得到起始时间点。
3.根据权利要求1所述的语音唤醒的判断方法,其特征在于,在所述基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件前,还包括:
对所述每一帧音素的后验概率进行平滑处理。
4.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,包括:
对所述唤醒语音段做短时傅里叶变换;
基于变换后的语音信息,以分贝为单位计算每个时间点的频谱能量密度;
对所有的频谱能量密度进行归一化处理,得到所述唤醒语音段的语谱图;
将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果。
5.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述依据大量唤醒语音段的语谱图训练得到的二分类网络模型的训练过程包括:
将语谱图作为特征建立卷积神经网络;
基于所述卷积神经网络,利用反向传播原理和交叉熵原理,训练得到二分类网络模型。
6.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述第一模型根据所述输入语音判断是否唤醒,包括:
第一模型根据所述输入语音中各个音素的后验概率的乘积与预设值的比较结果判断是否唤醒。
7.根据权利要求1所述的语音唤醒的判断方法,其特征在于,所述第一模型为基于隐马尔科夫模型的结构模型,所述第一模型根据所述输入语音判断是否唤醒,包括:
基于所述结构模型,通过维特比算法获取所述输入语音的最优路径;
基于所述最优路径判断是否唤醒。
8.一种语音唤醒的判断装置,其特征在于,包括:
语音获取模块,用于获取输入语音;
第一判断模块,用于基于第一模型根据所述输入语音判断是否唤醒;
语音截取模块,用于在所述第一判断模块的判断结果为是时,返回唤醒长度,确定唤醒语音段;
第二判断模块,用于将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型;
所述语音截取模块包括:
概率确定模块,用于确定所述输入语音中每一帧音素的后验概率;
条件判断模块,用于基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件;
时间点确定模块,用于在所述条件判断模块判断满足条件时,记录唤醒时间点,确定唤醒词的起始时间点;所述唤醒词的起始时间点为开始接收所述唤醒词第一个字的第一个音素的时间点;
语音段确定模块,用于基于所述唤醒时间点和所述起始时间点确定唤醒长度,并确定唤醒语音段。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述可执行指令包括:第一模型根据输入语音判断是否唤醒;
若判断结果为唤醒,则返回唤醒长度,确定唤醒语音段;
将所述唤醒语音段的语谱图输入第二模型,得到唤醒判断结果,其中,所述第二模型为依据大量唤醒语音段的语谱图训练得到的二分类网络模型;
所述返回唤醒长度,确定唤醒语音段,包括:
确定所述输入语音中每一帧音素的后验概率;
基于所述每一帧音素的后验概率判断当前情况是否满足唤醒条件;
若满足,记录唤醒时间点;
确定唤醒词的起始时间点;所述唤醒词的起始时间点为开始接收所述唤醒词第一个字的第一个音素的时间点;
基于所述唤醒时间点和所述起始时间点确定唤醒长度,并确定唤醒语音段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816082.X/1.html,转载请声明来源钻瓜专利网。