[发明专利]基于子词隐含马尔可夫模型的嵌入式语音识别方法有效

申请号：	200710064951.5	申请日：	2007-03-30
公开（公告）号：	CN101030369A	公开（公告）日：	2007-09-05
发明（设计）人：	梁维谦;董明;丁玉国;刘润生	申请（专利权）人：	清华大学
主分类号：	G10L15/14	分类号：	G10L15/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北京市100***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于语音识别技术领域，其特征在于，它是一种基于子词隐含马尔可夫模型的嵌入式语音识别方法，包括端点检测、帧同步声学特征提取、计算识别网络解码时用的声学特征矢量序列，以及识别网络解码共四个部分。其中，端点检测采用滑动平均滤波器和有限状态机实现；解码时采用基于滑动窗束搜索的两阶段识别方法，采用基于置信度的方法为第二阶段选取候选词条。本发明在保证识别正确率的条件下，提高识别所需内存占有和运算量的占用效率。同时本发明采用以数字信号处理器为核心的嵌入式实现，具有体积小、重量轻、功耗低、成本低的优点。
搜索关键词：	基于隐含马尔可夫模型嵌入式语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于子词隐含马尔可夫模型的嵌入式语音识别方法，其特征在于，该方法是在嵌入式硬件平台DSP上依次按照以下步骤实现的：步骤(1)端点检测，依次含有以下步骤：步骤(1.1)模拟语音信号经过滤波、A/D变换后，得到数字语音信号，步骤(1.2)对步骤(1.1)所述的数字语音信号进行分帧，再按照以下各步骤对每一帧语音数据进行处理，步骤(1.3)对所述的分帧语音信号通过一个一阶有限激励响应高通滤波器进行使频谱变得平坦的预加重处理，该高通滤波器的传递函数为x(n)＝x0(n)-βx0(n-1)，0.9≤β＜1.0，x0(n)为某n个采样点的预加重前的原始语音数据，x(n)为某n个采样点的预加重后的语音数据，步骤(1.4)按下式计算经过预加重后的分帧语音信号的时域能量特征e(t)：

e (t) = \ln (Σ_{n = 0}^{N - 1} {(x (n) - (\frac{1}{N} Σ_{n = 0}^{N - 1} x (n)))}^{2}), 0 \leq n \leq (N - 1),

t为当前帧数，N为每一帧语音所含的采样点的数目，步骤(1.5)用滑动平均滤波器的方法按下式对步骤(1.4)得到的时域能量特征求出用于端点检测的特征，简称端检特征emef(t)：

e_{mef} (t) = Σ_{i = - W}^{W} hh (i) e (t + i),

其中：hh(i)为滑动平均滤波器函数，

hh (i) = \{\begin{matrix} - {hh}_{0} (- i) & - W \leq i < 0 \\ {hh}_{0} (i), & 0 \leq i \leq W \end{matrix},

W为滤波器的长度，令W＝13，所述

{hh}_{0} (i) = e^{K_{7} i} [K_{1} \sin (K_{7} i) + K_{2} \cos (K_{7} i)] + e^{- K_{7} i} [K_{3} \sin (K_{7} i) + K_{4} \cos (K_{7} i)] + K_{5} + K_{6} e^{K_{8} i},

其中[K1，..，K6]＝[1.583，1.468，-0.078，-0.036，-0.872，-0.56]，K7＝0.2208，K8＝0.5383，步骤(1.6)按以下步骤用得到的端检特征进行语音端点检测，得到语音的起始和结束端点：步骤(1.6.1)设定端检特征的上限、下限阈值和语音离开的持续时间，步骤(1.6.2)初始设定为静音态，步骤(1.6.3)当emef(t)大于/等于上限阈值时输出语音的起始端点，并进入语音态，在语音态，若emef(t)小于下限阈值就进入离开语音态，再在emef(t)大于/等于上限阈值时返回语音态，若离开语音态的时间达到预先设定的语音离开的持续时间时就输出语音的结束端点，关闭录用通道，端点检测结束；步骤(2)提取帧同步的用Mel频标倒谱系数MFCC表示的语音特征矢量，其步骤如下：步骤(2.1)用汉明窗对步骤(1.3)得到的预加重后的第t帧语音进行加窗处理，该汉明窗的窗函数为步骤(2.2)用快速傅立叶变换把步骤(2.1)加窗后的第t帧时域语音信号变换为信号的功率谱X(k)：

{| X (k) |}^{2} = {| Σ_{n = 0}^{N - 1} x (n) e^{- j 2 πnk / N} |}^{2}, 0 \leq k \leq (N - 1),

步骤(2.3)用一组Mel频标上均匀分布的三角窗滤波器即Mel滤波器对步骤(2.2)所述的功率谱滤波，其步骤依次如下：步骤(2.3.1)用下式把快速傅立叶变换后的线性频率fHz映射到Mel频率上，并在Mel频率上均匀分段，设定M表示滤波器的个数，则第m个Mel分段频率fmel m为

f_{mel}^{m} = \frac{1127 \cdot (m + 1) \cdot \ln (1 + \frac{f_{Hz}^{FS} / 2}{700})}{m}, 0 \leq m \leq (M - 1),

其中fHz FS是语音信号的采样频率，步骤(2.3.2)再把Mel分段频率fmel m映射到Mel滤波后的线性频率fHz m：

f_{Hz}^{m} = 700 \cdot (\exp (\frac{f_{mel}^{m}}{1127}) - 1),

步骤(2.3.3)按下式计算Mel滤波器组在Mel滤波后各线性频率上的抽头系数Hm(k)，k为线性频率的序号：步骤(2.3.4)按下式计算Mel滤波器输出的子带能量A(m)：

A (m) = Σ_{k = 1}^{N / 2} H_{m} (k) \cdot {| X (k) |}^{2},

步骤(2.4)对步骤(2.3.4)得到的A(m)取对数：ln(A(m))，步骤(2.5)对步骤(2.4)得到的ln(A(m))进行离散余弦变换，以去除各维信号之间的相关性，把信号映射到低维空间，得到第r维倒谱系数

\tilde{c} (r) = α (r) Σ_{m = 0}^{M - 1} \ln (A (m)) \cos (\frac{(2 m + 1) rπ}{2 M}), 0 \leq r \leq (M - 1),

α (0) = \sqrt{\frac{1}{M}}, α (r) = \sqrt{\frac{2}{M}}, 1 \leq r \leq (M - 1),

步骤(2.6)对步骤(2.5)取得的第r维倒谱系数进行谱加权，抑制其低维和高维参数，其加权系数为

w_{r} = 1 + \frac{M}{2} \sin (\frac{π (r + 1)}{M}),

得到第r维谱加权倒谱系数

\hat{c} (r) = w_{r} \cdot \tilde{c} (r);

步骤(3)计算识别网络解码所需的语音特征矢量序列，其步骤如下：步骤(3.1)对步骤(2)得到的所有帧的Mel频标倒谱系数MFCC进行倒谱均值减，以有效地减小语音输入信道参数对特征参数的影响，得到倒谱均值减后的第t帧的第r维的特征c(r，t)：

c (r, t) = \hat{c} (r, t) - \frac{1}{T} Σ_{t = 0}^{T - 1} \hat{c} (r, t), 0 \leq t \leq (T - 1,)

其中，T为步骤(1)得到的端点检测后的语音总帧数，将步骤(1)得到的语音起始端点置为0，为第t帧的第r维谱加权倒谱系数，步骤(3.2)对步骤(1.4)得到的所有帧的时域能量特征e(t)按下式进行能量归一化处理：

g (t) = e (t) - \frac{1}{T} Σ_{t = 0}^{T - 1} e (t), 0 \leq t \leq (T - 1),

步骤(3.3)对步骤(3.1)的c(r，t)和步骤(3.2)的g(t)分别执行如下步骤：步骤(3.3.1)进行一阶差分处理，得到

Δc (r, t) = [Σ_{k = - 2}^{2} k \cdot c (r, t + k)] / [Σ_{k = - 2}^{2} k^{2}],

Δg (t) = [Σ_{k = - 2}^{2} k \cdot g (t + k)] / [Σ_{k = - 2}^{2} k^{2}],

步骤(3.3.2)对g(t)进行二阶差分处理，得到Δ2g(t)＝(Δg(t+1)-Δg(t-1))/2，步骤(3.3.3)对所有的T帧语音，分别取前d维的c(r，t)和Δc(r，t)，再分别取l维的g(t)，Δg(t)和Δ2g(t)，组合得到T帧D维的计算识别网络解码所需的语音特征矢量序列；步骤(4)识别网络解码：依次分下述两个阶段进行：步骤(4.1)为第二阶段识别输出多候选词条的第一阶段识别，依次含有以下步骤：步骤(4.1.1)采用Monophone模型作为第一阶段识别用的声学模型，该声学模型状态的输出概率密度函数为协方差矩阵为对角阵的多高斯混合概率密度函数，步骤(4.1.2)以该Monophone模型的状态总数为计数总数进行循环，依次读入每一个Mohophone模型的状态参数，步骤(4.1.3)按照步骤(3)所述的语音特征矢量序列的帧数进行循环，按下式计算每一个语音特征矢量ot对每一个状态的输出概率，得到输出概率矩阵B＝(bj(ot))0≤j≤(I-1)，0≤t≤(T-1)，其中I为状态总数，每一个语音特征矢量ot对每一个状态j的输出概率bj(ot)为

b_{j} (o_{t}) = Σ_{g = 1}^{G} c_{jg} N (o_{t}; μ_{jg}, Σ_{jg})

= Σ_{g = 1}^{G} \frac{c_{jg}}{\sqrt{{(2 π)}^{D} | Σ_{jg} |}} \exp [- \frac{1}{2} {(o_{t} - μ_{jg})}^{T} Σ_{jg}^{- 1} (o_{t} - μ_{jg})],

其中，D为语音特征列矢量的维数，cjg、μjg、∑jg分别为状态j的输出概率密度函数的第g个高斯混合分量的权重、均值列矢量和协方差矩阵，上标T表示矩阵转置运算，∑jg为对角阵，步骤(4.1.4)维特比搜索：待识别词表中的每一个词条是由子词模型拼接起来的线性网络，对第1个词条按照以下步骤进行滑动窗束搜索：a.初始化(t＝0)：设定窗宽为CK，0＜CK＜Il，δ0(i)＝πibi(o0)，0≤i≤(CK-1)，滑动窗的下沿BT0＝0，b.迭代(1≤t≤(T-1))：

δ_{i} (j) = \max_{i} {δ_{t - 1} (i) a_{ij}} b_{j} (o_{t}), {BT}_{t - 1} \leq i < ({BT}_{t - 1} + CK), {BT}_{t - 1} \leq j \leq ({BT}_{t - 1} + CK),

如果δt(BTt-1+CK)＞δt(BTt-1+CK-1)：BTt＝BTt-1+1，否则BTt＝BTt-1，c.终止：

δ_{T - 1}^{*} = \max_{j} {δ_{T - 1} (j)},

BTT-2≤j≤(BTT-2+CK)，则第1个词条的路径匹配分数

{LV}^{l} = δ_{T - 1}^{*},

其中，Il为第l个词条网络的状态节点总数，步骤(4.1.5)选取第二阶段识别用的候选词条：对第l个词条，采用下式表示的归一化在线垃圾模型NOGM来测度该第l个词条的置信度CM(l)：

CM (l) = \frac{1}{T} \ln (\frac{{LV}^{l}}{Σ_{k = 1}^{L} {LV}^{k}}),

其中，LVl为步骤(4.1.4)中得到的第l个词条的路径匹配分数，L为识别词表的词条总数，T为待识别的语音特征矢量序列的帧数，其次，判决CM(l)≥阈值Th否：如满足CM(l)≥Th，则取为第二阶段识别用的候选词条，步骤(4.2)第二阶段识别：步骤(4.2.1)选取上下文相关的多音子模型作为第二阶段识别用的声学模型，步骤(4.2.2)根据第一阶段输出的候选词条选取涉及到的第二阶段子词模型的状态，步骤(4.2.3)按照步骤(4.1.2)～(4.1.3)所述的方法计算第二阶段的输出概率矩阵，步骤(4.2.4)按照步骤(4.1.4)计算语音特征矢量序列对步骤(4.1.5)得到的候选词条中的每一个词条的路径匹配分数，令CK＝Il，不进行滑动窗剪枝，步骤(4.2.5)把路径匹配分数最佳的词条作为识别结果输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710064951.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于子词隐含马尔可夫模型的嵌入式语音识别方法有效

专利文献下载