[发明专利]一种基于子空间的非特定人孤立词识别方法及装置无效
申请号: | 201210093120.1 | 申请日: | 2012-04-01 |
公开(公告)号: | CN102693723A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 何亮;巴福生 | 申请(专利权)人: | 北京安慧音通科技有限责任公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 空间 特定 孤立 识别 方法 装置 | ||
技术领域
本发明涉及自动语音识别领域,具体而言,是一种基于子空间技术的非特定人孤立词识别方法及装置。
背景技术
语音是人类最自然、最灵活、最频繁的信息交流方式。语音中蕴含多层信息,如何自动提取这些信息便成为当前语音信号处理领域的主要研究内容。作为该领域的一个重要分支,孤立词(Isolated Word Recognition,IWR)是利用计算机,自动从语音片段中提取内容的识别技术,在汽车导航、计算机控制、玩具等诸多领域有广泛的应用。
目前,非特定人孤立词识别主要利用统计模式识别的方法,分为训练和测试两个阶段。训练阶段可分为三个步骤:前端处理,特征提取和建立模型;测试阶段可分为四个步骤:前端处理,特征提取,模型匹配和分数判决。通常而言,
(1)前端处理:包括语音增强、活动语音检测和语音切分等信号处理技术;
(2)特征提取:通常选择线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)或感知线性预测(Perceptual Linear Prediction,PLP);
(3)建模方法(建立模型和模型匹配):主流技术是隐含马尔科夫模型(Hidden Markov Model,HMM);
(4)分数判决:根据阈值,对分数进行比较,对HMM的输出分数进行处理,给出识别结果。
在上述过程中,建模方法是最为重要的一个环节。对于非特定人的IWR算法,在进行HMM建模时,需要选择建模基元,通常有三种方法:
(1)整词:把词作为建模的基本单元;
(2)声韵母:把声韵母作为建模的基本单元。在汉语中,有21个声母,37个韵母。
(3)音节:将音节作为建模的基本单元。音节分为无调音节和有调音节,在汉语中,无调音节有409个,有调音节有1300个。
上述三种方法各有利弊。一般而言,选择的基元越精细,系统的计算复杂度就越高,推广性就越好。例如,选择整词作为基元,其计算复杂度低,识别率高(>99%),适用于小规模词表的IWR系统;选择声韵母或音节作为基元,扩展性好,可以通过修改词表得到便利的应用,适用于大规模词表的IWR系统,但识别率不高。
选择声韵母或音节作为基元,利用HMM建模的非特定人孤立词识别系统的识别率不高的主要原因有如下几点:(1)HMM的参数较多,难以准确估值;(2)识别时会引入搜索误差等。其中,对HMM参数不能准确估值是造成识别率下降的核心因素。
子空间技术认为待估计的数据结构是冗余的,通过线性映射降低建模的自由度,达到准确估值的目的。子空间技术在在图像识别、文本识别、生物特征识别和雷达型号处理等领域有广泛的应用。
发明内容
本发明的目的在于:提出一种基于子空间技术的非特定人孤立词识别方法和装置,以解决传统方法中隐含马尔科夫模型的参数较多,不能被准确估值的问题。
本发明提出一种将子空间技术应用于非特定人孤立词识别方法和装置。发明的基本特征是:认为隐含马尔科夫模型的参数存在冗余,通过线性映射,降低建模的自由度。在相同训练数据条件下,能更为稳健的估值,解决估值不准的问题。
发明的具体步骤如下:
(1)训练阶段:对于训练语音,作如下处理,
(1.1)前端处理:包括语音增强,用于抑制背景噪声,提升语音部分的可懂度,以便后端能够更好的区分语音信号和非语音信号。采用的方法是频域的维纳滤波;活动语音检测,用于区分语音信号和非语音信号,去除非语音信号,以便后端对语音信号的识别。采用的方法有G723.1、G723.9等。语音切分,对检测到的语音信号分帧处理,以便后续的特征提取。
(1.2)特征提取:可以选择LPCC、MFCC或PLP及衍生特征。以MFCC为例,通常提取12维MFCC基本特征和能量构成13维特征。该13维特征是静态特征,为了反映语音的动态特性,利用静态特征构造差分特征。将1阶、2阶差分特征附到静态特征后,构成用于建模的39维MFCC特征。
(1.3)建立模型:采用声韵母模型。将声韵母作为基本单元的好处是:可以将事先训练好的基元单元按照声韵母拼接得到整体模型,使构建的非特定人孤立词识别系统通过修改词表,就能直接用于识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安慧音通科技有限责任公司,未经北京安慧音通科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210093120.1/2.html,转载请声明来源钻瓜专利网。