[发明专利]一种基于通信调度指令的语音识别的智能系统及方法在审
申请号: | 202210829783.9 | 申请日: | 2022-07-15 |
公开(公告)号: | CN115312038A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 胥泽龙;秦瑾;蒋永录;赵玮 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/16;G10L15/14;G10L15/20;G10L25/03 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 郭海 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通信 调度 指令 语音 识别 智能 系统 方法 | ||
1.一种基于通信调度指令的语音识别的智能系统及方法,其特征在于包括如下步骤:
S01语音训练语料
训练语料由开源语音语料库、通信调度指令语音语料库两部分组成;
开源语音语料库;通信调度语料库收集的通信调度工作人员日常调度指令的语音数据,该语音数据包含通信行业专业术语名词,或者包含地方特征的语音数据,该语料来源于通讯调度命令日常用语,对比开源预料对专业名称的包含内容更加丰富;
S02特征提取
步骤S021:增加语音信号相较于低频分量的高频分量幅度,语音能量主要集中在低频,提高高频,有助于提高信噪比,去除声门激励、口鼻辐射、传播时高频衰减更大的影响,设n时刻的语音采样值为x(n),经过预加重处理后的结果y(n)为:
y(n)=x(n)-0.96*x(n-1)
步骤S022:对音频进行分帧,把声音切分成很多小的片段,帧与帧之间有一定的交叠,每一帧长度是25ms,帧移是10ms,两帧之间有25-10=15ms的交叠;
步骤S023:在分帧之后,通常需要对每帧的信号进行加窗处理,其窗函数为:
这里0≤n≤N-1,N是窗的宽度;
步骤S024:对于每一帧的加窗信号,进行N点FFT变换,也称短时傅里叶变换(STFT),N通常取256或512;
步骤S025:经过上面的步骤之后,在能量谱上应用Mel滤波器组,就能提取到FBank特征;
步骤S026:去均值减少训练集与测试集之间的不匹配,均衡频谱,提升信噪比;
S03声学模型训练
1)构建模型
构建声学模型,该模型包括:深度神经网络、隐马尔可夫模型;在该框架中,HMM用来描述语音信号的动态变化,用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率,该模型的整体输入是fbank特征,而后DNN对所有聚类后的状态的似然度进行建模,得到后验概率,再结合HMM对其进行解码;
2)训练模型
DNN-HMM模型的主要训练步骤如下:
①首先训练一个状态共享的三音素GMM-HMM汉语识别系统,使用决策树来决定如何共享状态,设训练完成的系统为gmm-hmm;
②用步骤1得到的gmm-hmm初始化一个新隐马尔可夫模型,并生成一个DNN-HMM模型,设该模型为dnn-hmm1;
③预训练dnn-hmm1系统中的深度神经网络,得到的深度神经网络为ptdnn;
④使用gmm-hmm系统对语音训练数据作排列,得到的数据设为align-raw;
⑤使用步骤4得到的数据对ptdnn的参数作微调,设得到的深度神经网络为dnn;
⑥利用dnn与dnn-hmm1和最大似然算法重新估计隐马尔可夫中的参数,设新得到的系统为dnn-hmm2;
⑦如果步骤6的精度不再提高则退出算法,否则使用dnn和dnn-hmm2产生新的语音训练数据的排列数据,然后回到步骤5;
⑧利用训练数据估计概率值;
S04声学模型
通过步骤S03:声学模型训练后,得到适用于通信调度指令语音的声学模型;
S05词典
开源词典DaCiDian,根据通信调度方向对开源字典的调整,尽可能多的覆盖通信调度相关的字词,抛弃不需要的字词,以提高检索效率和识别性能;
S06文本训练语料
将符合日常用语语法的句子纯文本数据,以及通信调用指令的句子整理为文本训练语料;
S07语言模型训练
1)构建模型
构建语言模型,采用链式法则表示,各个词的概率可以通过语料中统计计算得到;假设句子W是有词序列w1,w2,w3…wn组成,则可由条件概率相关公式表示为:
P(W)=P(w1)*p(w2)*p(w3)***p(wn)
=p(w1)*p(w2|w1)*p(w3|w1w2)***p(wn|w1w2w3…wn)
其中N-gram模型认为每个词的概率分布只依赖于前几个出现的词语,在N-gram模型中,每个词的概率分布只依赖于前面n-1个词;
2)训练模型
N-gram模型的主要训练步骤如下:
①获取原始文本训练语料;
②对上一步获取的原始语料进行分词,利用开源中文分词库jieba进行分词,在词库中自定义通讯调度专业名词进行辅助提高准确率;
③对上一步得到的分词结果进行词频统计,具体为采用Spark RDD编程进行原始语料的词频统计;
④对N-gram模型使用拉普拉斯平滑进行平滑处理,得到最终的N-gram模型,LaplaceSmoothing算法,假设一段语句每个词表示为Wi,其中V表示语句中词的个数:
S08语言模型
通过步骤S08:语言模型训练后,得到N-gram模型;
S09待分析语音
输入一段通信调度指令语音数据;
S10语音预处理
通道之间共享阈值的深度残差收缩网络对语音数据进行降噪或者冗余信息处理;
DRSN-CS是深度残差学习(Deep Residual Network,ResNet)的改进,引入软阈值化,子网络中置阈值自动设置;
S11特征提取
该部分特征提取与特征提取S02相同;
S12解码搜索
步骤S121:输入参数为步骤S11中提取的语音的FBank特征,得到特征向量序列;
步骤S122:给定相关特征向量,通过深度神经网络DNN输出概率,作为发射概率,结合隐马尔可夫模型HMM和viterbi算法标记音素序列;
步骤S123:根据词典,生成字符串序列;
步骤S124:根据上一步得到的字符串序列,利用N-gram模型结合词典实现音字转换,对于多个转换结果使用维特比viterbi解码算法,采用动态规划的原理确定路径,给出最大概率的文字序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210829783.9/1.html,转载请声明来源钻瓜专利网。