[发明专利]一种基于维特比算法的音素识别方法无效
申请号: | 201210541534.6 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103871406A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 王雷 | 申请(专利权)人: | 上海八方视界网络科技有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 袁亚军 |
地址: | 200941 上海市宝*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 音素 识别 方法 | ||
技术领域
本发明属于音素语音识别领域,具体涉及一种利用维特比算法的音素识别方法,即对于已知的汉语音素进行相应识别的方法。
背景技术
音素是音韵学当中语言的最基本单位。在音韵学中,音素的组合便构成了有意义的单元例如词或者词素。音素也经常被描述为与表达相对,备用以形成有意义的基本分割单位。由于音素是语音的最小分割单位,能否正确的识别音素在音频切分、语音识别、语音关键词识别等应用中有非常重要的作用。
目前,音素识别这一课题已经被很多研究者进行了深入的研究分析,其主要的方法已经比较固定。一般情况下,对于音素的识别都是基于每个音素的一小段语音音频。首先对于音频进行音频信号的预处理,即对于音频信号进行分帧,过滤等。然后将提取相应的音频特征以用于识别分析,最后利用算法依据提取的音素音频特征对于音频文件进行音素识别。
在音素的识别算法中,目前比较流行的是最大熵、互信息、传统隐马尔可夫模型、条件随机域以及人工神经网络等机器学习等相关算法。而这些算法都有自己相应的问题,例如互信息算法往往需要与别的算法混合,而传统隐马尔可夫往往有标签偏见问题的问题,而机器学习算法在实现上非常复杂。
发明内容
为克服现有技术上的不足,本发明主要目的在于提供了一种利用维特比算法的音素识别方法,其通过音素中关键帧的识别,透过不同帧状态的转移作为观测值,利用维特比算法对于这种状态转移进行记录,从而可以有效地识别出拥有不同特征帧顺序的音素,达到音素识别区分的效果。
为解决上述问题,本实用新型采用如下技术方案:
目前主流的音频识别方法往往在算法复杂度和标签偏见问题上无法得到很好的权衡,而维特比算法相对而言比较好的解决了这一问题。其最大的特征是状态转移不在只参考一个前一个状态的情况或者观测值,而是通过递归的方式,获得一个时间序列当中所有观测值对于状态转移的影响。
本发明主要首先需要收集相应的音素样本作为后面训练马尔可夫模型中形成相应的观测序列的依据。本发明中,所需的音频特征即简单的音频片段语谱图,也就是每一帧所对应的频率向量。
而后,会将相应数量的频率向量结合成为一个向量组作为马尔可夫模型中的一个观测值,这主要是为了减少训练和预测中所需要输入的输入数据维度,从而可以有效地降低算法的运行时间效率。
每个音素我们都会收集相应的若干音频片段并得到该音频片段的多个帧频率向量组,每一个向量组我们都会将它认为是一个相应观测向量中的一个观测,这样我们就可以得到所有因素所对应的观测。同时也会收集一些非音素音频片段的帧频率向量组,所有这些向量组便形成输出观测值符号集合O(O为每个状态对应的可能的观察值数目,记M个观察值为O1……OM,记t时刻观察到的观察值为Ot 其中Ot∈(O1……OM)),O中每一个元素都为一个向量组。
对于收集的所有正反样本(正样本为音素的片段,反样本为非音素片段),我们都将其归纳入状态集合S(即模型有几个状态组成,设有N个状态,S={Si|i=1,2,……N},记t时刻模型所处的状态为St, St∈(S1……SN)),同时对于每个音素片段的最后一个帧频率向量组,我们都将其加入终了状态F集合当中。这样我们已经有了隐马尔可夫模型中相应的O,S和F集合三个基本要素。
下一步将利用Baum-Welch算法,通过O,S作为输入,就可以得到最后的隐马尔可夫另外的三个要素即状态转移概率的集合A,输出观测值概率的集合B以及系统初始状态概率的集合π。
在这里,A为所有可能的转移概率所构成的转移概率矩阵,即
其中,aij为状态Si到状态Sj的状态转移概率,1≤I,j≤N,且有0≤aij≤1,。
而B={bj(k)},即:
bj(k)=p[Ot=Vk|St=j],1≤k≤M,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海八方视界网络科技有限公司,未经上海八方视界网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210541534.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:塑料透镜
- 下一篇:基于麦芽糖醇的用于矿棉的胶料组合物和获得的隔绝性产品