[发明专利]语音唤醒方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202111059055.6 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113838462A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 韩雨;郑晓明;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L15/06;G10L15/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种语音唤醒方法,其特征在于,所述方法包括:
采集用户发出的语音,提取所述语音的声学特征;
将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率,所述多任务语音唤醒模型是利用预先标注有文本标签和分类标签的语音样本,经过训练得到的,所述文本标签为所述语音样本对应的文本,所述类别标签表征所述语音样本是否是唤醒词语音;
根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
2.根据权利要求1所述的方法,其特征在于,所述多任务语音唤醒模型的最后一层分为所述第一输出分支和所述第二输出分支,所述第一输出分支和所述第二输出分支共享除所述最后一层外其他层的模型参数;
所述第一输出分支为softmax层,输出类别数为所有的音素个数,用于预测所述用户发出的语音对应的音素序列;
所述第二输出分支为Sigmoid层,输出0至1的值,用于预测所述用户发出的语音是否为唤醒词语音。
3.根据权利要求1所述的方法,其特征在于,所述多任务语音唤醒模型的训练步骤包括:
获取预先标注有文本标签和分类标签的语音样本,所述语音样本包括唤醒词语音和非唤醒词语音;
提取所述语音样本的声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述语音样本的声学特征进行加噪处理,得到带噪声学特征;
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征及其对应的带噪声学特征、所述语音样本的文本标签和分类标签、输入具有第一输出分支和第二输出分支的多任务模型进行训练。
5.根据权利要求1-4任一所述的方法,其特征在于,将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型进行训练,包括:
将所述语音样本的声学特征、所述语音样本的文本标签和分类标签输入具有第一输出分支和第二输出分支的多任务模型,得到所述第一输出分支输出的第一结果和所述第二输出分支输出的第二结果;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述第一结果和所述第二结果进行加权处理,得到所述多任务模型的损失函数值;
根据所述多任务模型的损失函数值、所述语音样本的文本标签和分类标签,对所述多任务模型的模型参数进行更新,得到所述多任务语音唤醒模型。
6.根据权利要求1所述的方法,其特征在于,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
根据所述预测音素序列对应的文本是否与唤醒词匹配,以及所述唤醒概率是否大于预设概率阈值,确定是否唤醒。
7.根据权利要求1所述的方法,其特征在于,根据所述预测音素序列和所述唤醒概率,确定是否唤醒,包括:
确定所述预测音素序列与唤醒词对应的音素序列之间的匹配度;
根据所述第一输出分支和所述第二输出分支各自的权重值,对所述匹配度和所述唤醒概率进行加权处理;
根据加权处理的结果是否大于预设唤醒阈值,确定是否唤醒。
8.一种语音唤醒装置,其特征在于,所述装置包括:
采集模块,用于采集用户发出的语音,提取所述语音的声学特征;
输入模块,用于将所述声学特征输入预先训练得到的多任务语音唤醒模型,得到所述多任务语音唤醒模型的第一输出分支输出的预测音素序列,以及,所述多任务语音唤醒模型的第二输出分支输出的唤醒概率;
确定模块,用于根据所述预测音素序列和所述唤醒概率,确定是否唤醒。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111059055.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于百香果的拾捡装置
- 下一篇:基于深度学习的油气管道异常情况巡检系统