[发明专利]语音唤醒的优化方法及系统在审
申请号: | 201910899791.9 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110600008A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 徐俊峰 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/26 |
代理公司: | 11400 北京商专永信知识产权代理事务所(普通合伙) | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学模型 唤醒 音素 输出特征 语音音频 语音 置信度 分类效果 建模单元 声学特征 特征提取 音素分类 优化系统 阈值时 构建 减小 预设 优化 | ||
1.一种语音唤醒的优化方法,包括:
构建二级唤醒声学模型,所述二级唤醒声学模型包括音素声学模型和词级别的声学模型;
对接收到的语音音频进行特征提取,将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型,提取所述音素声学模型的输出特征;
基于所述音素声学模型的输出特征,作为所述二级唤醒声学模型中的词级别声学模型的输入,确定唤醒词的置信度;
当所述置信度超过预设唤醒阈值时,将所述语音音频确定为唤醒词,进行语音唤醒。
2.根据权利要求1所述的方法,其中,在所述提取所述音素声学模型的输出特征之后,所述方法还包括:
将每一帧的输出特征发送至特征累计器;
当所述特征累计器中语音音频的帧数累计达到预设阈值时,将所述特征累计器中的输出特征拼接成一维特征;
将所述一维特征输入至所述词级别声学模型,以完成两个模型的耦合。
3.根据权利要求1所述的方法,其中,在所述对接收到的语音音频进行特征提取之前,所述方法还包括:
根据声学传感器实时接收音频信号,通过语音端点检测模型确定所述音频信号是否为语音音频;
当所述音频信号为语音音频时,对接收到的对话语音进行声学特征提取。
4.一种语音唤醒的优化系统,包括:
模型构建程序模块,用于构建二级唤醒声学模型,所述二级唤醒声学模型包括音素声学模型和词级别的声学模型;
特征提取程序模块,用于对接收到的语音音频进行特征提取,将提到的声学特征输入至所述二级唤醒声学模型中的音素声学模型,提取所述音素声学模型的输出特征;
置信度确定程序模块,用于基于所述音素声学模型的输出特征,作为所述二级唤醒声学模型中的词级别声学模型的输入,确定唤醒词的置信度;
唤醒程序模块,用于当所述置信度超过预设唤醒阈值时,将所述语音音频确定为唤醒词,进行语音唤醒。
5.根据权利要求4所述的系统,其中,在特征提取程序模块之后,所述系统还包括:特征累计程序模块,用于:
将每一帧的输出特征发送至特征累计器;
当所述特征累计器中语音音频的帧数累计达到预设阈值时,将所述特征累计器中的输出特征拼接成一维特征;
将所述一维特征输入至所述另一个声学模型,以完成两个模型的耦合。
6.根据权利要求4所述的系统,其中,所述特征提取程序模块还用于:
根据声学传感器实时接收音频信号,通过语音端点检测模型确定所述音频信号是否为语音音频;
当所述音频信号为语音音频时,对接收到的对话语音进行声学特征提取。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910899791.9/1.html,转载请声明来源钻瓜专利网。