[发明专利]一种基于维特比算法的音素识别方法无效
申请号: | 201210541534.6 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103871406A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 王雷 | 申请(专利权)人: | 上海八方视界网络科技有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 袁亚军 |
地址: | 200941 上海市宝*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 音素 识别 方法 | ||
1.一种基于维特比算法的音素识别方法,其特征在于:其方法为:使用原始的语音时频信号当中的每时刻频率向量作为训练的输入向量,利用Baum-Welch算法构建隐马尔可夫模型以及其所有的要素,最后,对于每一个输入的语音利用维特比算法计算进行语音中音素判别识别。
2.根据权利要求1所述的基于维特比算法的音素识别方法,其特征在于:所述利用维特比算法计算进行语音中音素判别识别的方法步骤如下:
(a)、收集足够大量的音频文件作为训练样本,其中不仅有大量的音素信息,同时还要收集大量的非音素的音频文件作为训练的反面样本来提升识别的准确度;
(b)、使用原始的语音时频信号的频率向量作为输入训练的音频特征向量,其中,需要对频率向量做归一化处理;
(C)、将归一化后的特征矩阵,作为隐马尔可夫模型中的输出观测值符号集合O,将每一个音素以及一个非音素状态作为隐马尔可夫模型中的状态集合S,利用Baum-Welch算法,通过观测值符号集合O,状态集合S作为输入,得到最后的隐马尔可夫另外的三个要素即状态转移概率的集合A,输出观测值概率的集合B以及系统初始状态概率的集合π;
(d)、当得到所需要的隐马尔可夫模型之后,每当输入一段音频,都对其作相同的特征处理,即得到时频信号的频率向量,并归并成若干矩阵;然后,将这些矩阵与每一个状态所对应的矩阵进行对比,继而得到该音频的一个状态转移向量;
(e)、该状态转移向量作为输入,利用维特比算法和之前的隐马尔可夫模型得到一个状态转移矩阵,利用所述状态转移矩阵,即可判断出该音频是否为某个音素,或者不为任何一个音素。
3.根据权利要求2所述的基于维特比算法的音素识别方法,其特征在于:所述步骤(b)中,在得到频率向量集之后,将每100个频率向量归并为一个频率向量组作为一个单一的观测存在;对于频率向量中的所有数据要进行归一化处理,即保证将频率向量中所有的数据都规范到0到1之间的小数,同时只保留小数点之后两位。
4.根据权利要求2所述的基于维特比算法的音素识别方法,其特征在于:所述步骤(c)中,利用Baum-Welch算法对于已经产生的观测值符号集合O与状态集合S进行相应的训练操作;其具体方法为:首先,要初始化一个A,B,和π作为原始的迭代输入;设现在有样本音频数目为N则,A为N×N矩阵,此时,则每一项为,即保证每一列的和为1;
同理,假设此时O有M个元素,则此时会形成一个N×M矩阵,且每项为,保证所有行上的数字加起来为1;同理,相应的π也用同样的方式进行初始化。
5.根据权利要求2所述的基于维特比算法的音素识别方法,其特征在于:所述步骤(d)中,当得到输入的一个音频第一个频率向量矩阵为X= {x1、x2、x3……x100} ,用来与它进行比较,从而确定该矩阵属于什么状态的状态对应音频频率矩阵为,计算x1与、x2与等的相关性系数,得到相关性系数向量,计算其均值即得,如果,则可以断定两个向量组相似,即输入的的音频的每一个向量组,属于观测值符号集合O中的哪一个观测值。
6.根据权利要求2所述的基于维特比算法的音素识别方法,其特征在于:所述步骤(e)中,对于最终得到的状态向量S,如果其状态转移永远在一个音素状态上进行自循环,则推断输入的音频为该音素音频;
如果在状态转移序列中,有状态迁移出了某个音素所标识的状态,即S序列中并不全为某一音素标识的状态,则该音频不属于某音素的音频或者不属于任何音素的音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海八方视界网络科技有限公司,未经上海八方视界网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210541534.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:塑料透镜
- 下一篇:基于麦芽糖醇的用于矿棉的胶料组合物和获得的隔绝性产品