[发明专利]一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现在审

申请号：	202011323748.7	申请日：	2020-11-23
公开（公告）号：	CN114530141A	公开（公告）日：	2022-05-24
发明（设计）人：	陆峰;薛玉敏	申请（专利权）人：	北京航空航天大学
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/08;G10L15/14;G10L15/183;G10L19/00;G10L25/24
代理公司：	北京唯智勤实知识产权代理事务所(普通合伙) 11557	代理人：	陈佳
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种特定场景中英文混合离线语音关键词识别方法及其系统实现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种中英文混合的离线语音关键词识别方法，包括：

获取语音数字信号，对其进行语音活动检测，得到待识别语音段；

定义自适应关键词匹配窗口，分割待识别语音段；

对所述窗口内的语音段进行特征提取，得到梅尔频率倒谱系数嵌入特征向量；

分析特定场景下的自定义关键词列表，以及结合预先训练的音素补白模型，得到自定义关键词的中文解码网络空间和英文解码网络空间；

将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中，得到识别结果；

对所述识别结果后处理，生成目标识别结果作为输出。

2.根据权利要求1所述的方法，其中，所述语音活动检测包括：

定义语音采集的参数信息，调用音频处理接口以如下参数对原始语音进行量化处理：采样频率为16000Hz，声道数为1，每一个语音块包含的语音帧数为1024，得到第n时刻的量化处理的语音帧编码信息x(n)＝(x₁(n)，x₂(n)，...，x_m(n))，k个语音帧编码信息组合得到t₁到t_k时间段内的原始语音块信息f＝(x(t₁)，x(t₂)，...，x(t_k))；

对所述量化处理的语音帧编码信息计算平均声音强度如下：

其中，n表示第n时刻，x表示语音帧编码信息，x(n)表示第n时刻采集到的语音帧编码信息，x₁(n)表示第n时刻采集到的语音帧编码信息中的第1位，x₂(n)表示第n时刻采集到的语音帧编码信息中的第2位，x_m(n)表示第n时刻采集到的语音帧编码信息中的第m位，f表示原始语音块信息，t表示时刻，t₁表示第1个时刻，t₂表示第2个时刻，t_k表示第k个时刻，x(t₁)表示t₁时刻采集到的语音帧编码信息，x(t₂)表示t₂时刻采集到的语音帧编码信息，x(t_k)表示t_k时刻采集到的语音帧编码信息，threshold表示平均声音强度也作为当前环境下的静音阈值，γ表示影响因子，具体取值为γ＝2.5，k表示序号，i表示序号，m表示语音帧编码信息的数量，x_i表示语音帧编码信息中的第i位，x_i(n)表示第n时刻采集到的语音帧编码信息中的第i位；