[发明专利]语音唤醒方法、装置、计算机设备和存储介质有效

申请号：	202011599330.9	申请日：	2020-12-29
公开（公告）号：	CN112652306B	公开（公告）日：	2023-10-03
发明（设计）人：	匡勇建	申请（专利权）人：	珠海市杰理科技股份有限公司
主分类号：	G10L15/22	分类号：	G10L15/22
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	聂榕
地址：	519000 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音唤醒方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种语音唤醒方法、装置、计算机设备和存储介质。该方法包括：获取唤醒词语音；通过预先训练好的第一声学模型得到唤醒词各帧的后验概率；使用后验概率在唤醒词的解码网络中搜索解码路径，根据各建模单元的惩罚函数对解码路径进行惩罚，得到解码路径的得分，其中，惩罚函数对不在常规时长区间的建模单元进行惩罚；若解码路径得分大于设定阈值，则唤醒电子设备。该方法通过对解码路径中不在常规时长区间的建模单元进行惩罚，能够降低解码路径的得分，过滤掉异常情况的唤醒词语音。例如，语速过慢或过快等不符合常规唤醒场景的唤醒词语音，从而提高唤醒准确性。

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音唤醒方法、装置、计算机设备和存储介质。

背景技术

随着语音识别技术的发展，语音唤醒在智能产品端得到广泛的应用，如智能家居设备、车载电子、智能音箱，移动电话以及蓝牙耳机等都可以看到语音唤醒的应用。语音唤醒主要涉及三大部分：音频预处理、声学模型、关键词解码。其中，关键词解码相对比较独立，但是其对于语音唤醒整个系统而言，却有着举足轻重的影响。

关键词解码是从语音流中定位给定关键词的起止时间点的过程，其中关键词是能够表达某种实质意义的词语，一般为名词或短语。关键词解码大多是通过设计解码网络来进行解码的，因而解码网络的设计显得尤为关键。现有的解码网络通过合理的设计都能取得较好的效果，但是当面临一些特殊情形时，如唤醒词为重叠词、关键词语速变化，语音唤醒的准确率就会大打折扣。比如语音唤醒解码中，关键词为重叠词，如小度小度，小乐小乐之类关键词，解码网络容易在用户喊出关键词的一半出现容易唤醒的情况；此外，在语速过快或者过慢的时候，解码网络的性能也会下降。

即现有的语音唤醒方法存在唤醒准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高唤醒准确率的语音唤醒方法、装置、计算机设备和存储介质。

一种语音唤醒方法，所述方法包括：

获取唤醒词语音；

通过预先训练好的第一声学模型得到所述唤醒词各帧的后验概率；

使用所述后验概率在唤醒词的解码网络中搜索解码路径，根据各建模单元的惩罚函数对所述解码路径进行惩罚，得到所述解码路径的得分，其中，所述惩罚函数对不在常规时长区间的建模单元进行惩罚；

若解码路径得分大于设定阈值，则唤醒电子设备。

在其中一个实施例中，所述方法还包括：对所述唤醒词各建模单元的常规持续时长进行频率统计，根据统计结果构建各建模单元的惩罚函数，所述惩罚函数对不在常规时长区间的建模单元进行惩罚。

在其中一个实施例中，对所述唤醒词各建模单元的常规持续时长进行频率统计，根据统计结果构建各建模单元的惩罚函数，包括：

通过第二声学模型对唤醒词数据集进行对齐，基于对齐结果对各建模单元的持续时长进行频率统计；

对所述统计结果进行曲线拟合，得到所述建模单元的分布曲线，通过所述分布曲线确定建模单元的常规时长区间；