[发明专利]一种语音识别系统和方法有效
申请号: | 201880044243.1 | 申请日: | 2018-05-25 |
公开(公告)号: | CN111066082B | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 周荣 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L15/30 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 系统 方法 | ||
1.一种用于提供语音识别的系统,其特征在于包括:
存储一组指令的至少一个存储介质;以及
至少一个处理器,被配置为与所述至少一个存储介质通信,其中,当执行所述指令时,所述至少一个处理器用于:
接收包括至少两个语音数据帧的语音信号;
确定至少两个帧中的每个帧的语音特征,该语音特征与一个以上标签相关;
基于所述语音特征确定关于一个以上标签的一个以上得分;
在预设间隔中采集至少两个帧,采集的帧按照一个以上标签的序列对应于一个以上标签中的至少一部分;
获得与每个采集帧相关联的标签的分数;以及
基于所获得的与采集的帧相关联的标签的分数,生成唤醒设备的指令。
2.如权利要求1所述的系统,其特征在于,所述至少一个处理器还用于:
对于至少两个帧中的每个帧,对一个以上标签的一个以上分数执行平滑操作。
3.如权利要求2所述的系统,其特征在于,对于所述至少两个帧中的每个帧,对一个以上标签的一个以上分数执行平滑操作,所述至少一个处理器用于:
确定相对于当前帧的平滑窗口;
确定平滑窗口中与当前帧相关联的至少一个帧;
确定所述至少一个帧的一个以上标签的分数;
基于所述至少一个帧的一个以上标签的分数,确定当前帧的一个以上标签中的每个标签的平均分数;以及
将当前帧的一个以上标签中的每一个标签的平均分数指定为当前帧的一个以上标签中的每一个标签的分数。
4.如权利要求1所述的系统,其特征在于,所述一个以上标签涉及用于唤醒所述设备的唤醒短语,并且所述唤醒短语包括至少一个单词。
5.如权利要求1所述的系统,其特征在于,基于所述一个以上语音特征确定关于所述一个以上标签的一个以上得分,所述至少一个处理器用于:
确定神经网络模型;
将与所述至少两个帧对应的一个以上语音特征输入到神经网络模型中;以及
针对一个以上语音特征中的每一个语音特征生成关于一个以上标签的一个以上分数。
6.如权利要求1所述的系统,其特征在于,为了在预设间隔中对所述至少两个帧进行采集,所述至少一个处理器用于:
确定搜索窗口的预定宽度,搜索窗口的预定宽度与唤醒短语中的单词数量有关;以及
确定搜索窗口中的帧数,所述帧数按照所述序列对应于第一数量的标签。
7.如权利要求6所述的系统,其特征在于,为了基于所获得的与所述采集帧相关联的标签的分数来生成唤醒设备的指令,所述至少一个处理器用于:
基于与采集帧对应的一个以上标签的分数确定最终分数;
确定所述最终得分是否大于阈值;以及
响应于所述最终得分大于所述阈值,
生成唤醒所述设备的指令。
8.如权利要求7所述的系统,其特征在于,所述最终得分是与所述采集的帧相关联的标签的得分的乘积的开方。
9.如权利要求7所述的系统,其特征在于,所述至少一个处理器还用于:
响应于所述最终得分不大于所述阈值,
将搜索窗口向前移动一步。
10.如权利要求1所述的系统,其特征在于为了确定所述至少两个帧中的每个帧的一个以上语音特征,所述至少一个处理器用于:
将所述语音信号从时域变换到频域;以及
对变换后的语音信号进行离散化以获得与所述至少两个帧相对应的一个以上语音特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880044243.1/1.html,转载请声明来源钻瓜专利网。