[发明专利]基于汉语发音特点的HMM语音识别技术在审

申请号：	94105340.7	申请日：	1994-05-20
公开（公告）号：	CN1112269A	公开（公告）日：	1995-11-22
发明（设计）人：	肖熙;王作英;战普明;姜进	申请（专利权）人：	北京超凡电子科技有限公司
主分类号：	G10L9/00	分类号：	G10L9/00;G06F3/16
代理公司：	暂无信息	代理人：	暂无信息
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于汉语发音特点 hmm 语音识别技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明基于汉语发音特点的HMM语音识别技术属于语音信号处理和识别技术领域。

目前利用计算机汉语语音识别技术，在语音识别实用化、产品化方面做的比较好是四达公司的STAR-863语音识别系统，它属于特定人孤立字全字表语音识别系统，采用DTW（动态时间变形法），特别适合于特定人的语音识别系统，而且识别精确度比较高，但由DTW方法所限，其模型的延续性特征的积累能力不强，因此很难推广应用到非特定人的语音系统。

本发明的目的：解决语音特征的提取问题，即解决由于汉语语音的不平衡性和多变性使得语音信号处理困难的问题，使语音识别系统既可应于特定人语音识别系统，又可应用于非特定人语音识别系统，既能识别孤立字音，又能识别词组和连续语音，并避免前述技术之不足，以达到语音识别系统广泛应用的目的。

本发明基于汉语发音特点的HMM语音识别技术的基本技特征：把HMM模型加以改进并按汉语发音特征进行模型训练来完成汉语语音特征的提取和识别。HMM模型是由一个状态概率π，状态转移A和状态相关联的概率分布阵B组成的三元组（π，A，B）。设状态数N，则：

π＝（π₁，π₂，…，π_N），A＝｛a_ij｝_NXN，B＝｛b₁，b₂…b_N｝

经典HMM中（π，A）是一个齐次Markov过程，其中a_ii是一个与时间无关的常数，从而状态i的驻留长度τ是指数分布：

这与语音的物理事实不符。事实上语音识别之所以成为可能就在于语音基本单位（如音素）对应的特征具有聚类性。在物理上HMM的状态必与某个语音单位相对应。本发明从状态驻留长度的概率分布函数出发，导出了一个基长段长分布的非齐次HMM模型，称为DDBHMM（Duration Distribution Based Markov Model）。

语音Markov模型的驻留长度相对稳定，而且不同字对应状态具有不同的驻留长度这一点，说明状态驻留长度信息对语音识别是非常重要。状态驻留长度的概率分布P_i（i＝1，…，N）和状态转移概率a_ij（i，j＝1，2，…，N）是一一对应的。因此，更合理的确定Markov模型的状态驻留长度分布函数｛P_i（τ）｝从而导出转移阵｛a_ij｝_NXN。已知｛P_i（τ）｝则：

a_ii（k）＝P_i（τ≥K/τ≥K-1）

＝ (P_i[(τ≥K∩(τ≥K-1)])/(P_i(τ≥K-1))

= (P_i（τ≥K))/(P_i（τ≥K-1))

设每状态相互独立：

a_ij（k）＝P_i（τ≥k/τ≥k-1）P_（i+1）（τ＝0）…P_j-1（τ＝0）P_j（τ≥1）

＝[1-a_ii（k）]P_（i+1）（τ＝0）…P_j-1（τ＝0）P_j（τ≥1）

a_ij（k）表示K时刻由i转j的概率，a_ii（k）表示K时刻驻留原始状态i的概率，一般a_ii与驻留时间有关，从而a_ij必与K有关。

任何字或词的模型都是一组参数M＝｛π，A，B｝，为对识别器进行训练，必须为每一个字词建立一个模型库。对每一个字词确定状态转移阵A，状态概率π及特征参数B，识别时系统给出一个观测序列0，那个字词模型产生这一观测序列的概率最大，就把未知字词判为这个字或词，识别结果定义为：

其中语音的观测序列0＝（0₁，…，0_T），K_j（j）＝1，2，…，N对应于最优分割的状态驻留长度。

模型训练的训练方法采用迭代法：先对A.B和π都假设一初始值，然后用待识别语音的观测序列以一定的方法对这些估值提纯;对提纯的值要接着进一步提纯，这个过程一直进行下去，直到没有改进余地为止，得到库存模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载