[发明专利]一种语音唤醒方法、装置及相关设备在审
申请号: | 201910800728.5 | 申请日: | 2019-08-28 |
公开(公告)号: | CN112530418A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 陈孝良;靳源;冯大航;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/04;G10L15/02;G10L15/06;G10L17/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 唤醒 方法 装置 相关 设备 | ||
本申请提供了一种语音唤醒方法、装置及相关设备,方法包括:获取初始语音信号,并从初始语音信号中提取语音特征;将语音特征输入预先设定的人群属性分类模型,得到人群属性分类模型输出的人群属性分类结果;依据人群属性分类结果,确定初始语音信号对应的人群属性;从唤醒模型组中选择与人群属性对应的唤醒模型,作为目标唤醒模型;将初始语音信号输入目标唤醒模型,以使目标唤醒模型进行语音唤醒。在本申请中,通过以上方式可以提高语音唤醒的可靠性。
技术领域
本申请涉及语音处理技术领域,特别涉及一种语音唤醒方法、装置及相关设备。
背景技术
语音唤醒是指用户通过说出唤醒词来唤醒电子设备,使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。
语音唤醒技术被越来越多的应用在语音交互设备中,但是如何提高语音唤醒的可靠性,成为问题。
发明内容
为解决上述技术问题,本申请实施例提供一种语音唤醒方法、装置及相关设备,以达到提高语音唤醒的可靠性的目的,技术方案如下:
一种语音唤醒方法,包括:
获取初始语音信号,并从所述初始语音信号中提取语音特征;
将所述语音特征输入预先设定的人群属性分类模型,得到所述人群属性分类模型输出的人群属性分类结果,所述人群属性分类模型为利用标注有人群属性的语音训练样本训练得到;
依据所述人群属性分类结果,确定所述初始语音信号对应的人群属性;
从唤醒模型组中选择与所述人群属性对应的唤醒模型,作为目标唤醒模型,所述唤醒模型组包括多个不同类型的唤醒模型,各个类型的唤醒模型分别利用对应人群属性的语音训练样本训练得到;
将所述初始语音信号输入所述目标唤醒模型,以使所述目标唤醒模型进行语音唤醒。
优选的,所述从所述初始语音信号中提取语音特征,包括:
对所述初始语音信号进行VAD截断处理,得到有效语音信号;
从所述有效语音信号中提取语音特征。
优选的,所述人群属性分类模型为卷积神经网络模型;
所述卷积神经网络模型的训练过程,包括:
初始化卷积神经网络模型中各层的参数;
从语音训练样本集中选择一个未使用语音训练样本,作为目标语音训练样本;
对所述目标语音训练样本进行VAD截断处理,得到有效语音训练信号;
从所述有效语音训练信号中提取语音特征,将所述语音特征输入所述卷积神经网络模型,得到所述卷积神经网络模型输出的分类结果;
计算所述卷积神经网络模型输出的分类结果与所述目标语音训练样本标注的人群属性的交叉熵;
更新所述卷积神经网络模型中各个层的参数,并返回从语音训练样本集中选择一个未使用语音训练样本的步骤,直至得到交叉熵,并依据本次计算得到的交叉熵与本次之前计算得到的交叉熵,判断交叉熵是否收敛;
若是,则结束训练;
若否,则返回更新所述卷积神经网络模型中各个层的参数的步骤。
优选的,所述更新所述卷积神经网络模型中各个层的参数,包括:
将所述交叉熵作为损失函数结果;
按照所述卷积神经网络模型中的输出层到输入层的顺序,将所述损失函数结果分别传递给所述卷积神经网络模型中的各个层,更新所述卷积神经网络模型中各个层的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910800728.5/2.html,转载请声明来源钻瓜专利网。