[发明专利]一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现在审
申请号: | 202011323748.7 | 申请日: | 2020-11-23 |
公开(公告)号: | CN114530141A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 陆峰;薛玉敏 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/08;G10L15/14;G10L15/183;G10L19/00;G10L25/24 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特定 场景 中英文 混合 离线 语音 关键词 识别 方法 及其 系统 实现 | ||
1.一种中英文混合的离线语音关键词识别方法,包括:
获取语音数字信号,对其进行语音活动检测,得到待识别语音段;
定义自适应关键词匹配窗口,分割待识别语音段;
对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量;
分析特定场景下的自定义关键词列表,以及结合预先训练的音素补白模型,得到自定义关键词的中文解码网络空间和英文解码网络空间;
将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果;
对所述识别结果后处理,生成目标识别结果作为输出。
2.根据权利要求1所述的方法,其中,所述语音活动检测包括:
定义语音采集的参数信息,调用音频处理接口以如下参数对原始语音进行量化处理:采样频率为16000Hz,声道数为1,每一个语音块包含的语音帧数为1024,得到第n时刻的量化处理的语音帧编码信息x(n)=(x1(n),x2(n),...,xm(n)),k个语音帧编码信息组合得到t1到tk时间段内的原始语音块信息f=(x(t1),x(t2),...,x(tk));
对所述量化处理的语音帧编码信息计算平均声音强度如下:
其中,n表示第n时刻,x表示语音帧编码信息,x(n)表示第n时刻采集到的语音帧编码信息,x1(n)表示第n时刻采集到的语音帧编码信息中的第1位,x2(n)表示第n时刻采集到的语音帧编码信息中的第2位,xm(n)表示第n时刻采集到的语音帧编码信息中的第m位,f表示原始语音块信息,t表示时刻,t1表示第1个时刻,t2表示第2个时刻,tk表示第k个时刻,x(t1)表示t1时刻采集到的语音帧编码信息,x(t2)表示t2时刻采集到的语音帧编码信息,x(tk)表示tk时刻采集到的语音帧编码信息,threshold表示平均声音强度也作为当前环境下的静音阈值,γ表示影响因子,具体取值为γ=2.5,k表示序号,i表示序号,m表示语音帧编码信息的数量,xi表示语音帧编码信息中的第i位,xi(n)表示第n时刻采集到的语音帧编码信息中的第i位;
分析声音强度变化,当关键词识别完成或长时间没有声音强度超过该阈值时,动态更新静音阈值。
3.根据权利要求2所述的方法,其中,所述定义自适应关键词匹配窗口,包括:
对照关键词列表计算平均关键词长度为:
其中,l表示平均关键词长度,n表示关键词数量,i表示序号,li表示第i个关键词的长度;
以平均关键词长度为依据定义匹配窗口的长度wnd和窗口移动的距离rwnd,wnd满足1.5l≤wnd≤2l,当识别到关键词时rwnd=0.8l,如果未识别到关键词则rwnd=0.4l。
4.根据权利要求3所述的方法,其中,所述对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量,包括:
对所述关键词匹配窗口内的语音信号预加重,弥补高频信号在声音传播中的损失;
以固定帧长和帧移对语音信号重叠分帧,得到分帧语音信号;
对所述分帧语音信号加窗,得到中央部分增强其余部分趋于零的语音信号;
对加窗后的语音信号进行傅里叶变换,得到每一帧语音信号的线性频谱;
将所述线性频谱输入梅尔频率滤波器组,得到梅尔频率倒谱系数嵌入特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011323748.7/1.html,转载请声明来源钻瓜专利网。