[发明专利]使用经修改的Baum-Welch算法的语音识别在审
申请号: | 201380061791.2 | 申请日: | 2013-11-27 |
公开(公告)号: | CN105122352A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | M.卡迪尔卡马纳桑 | 申请(专利权)人: | 朗桑有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/28 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 王洪斌;胡莉莉 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 修改 baum welch 算法 语音 识别 | ||
背景技术
典型的语音识别系统包括从音频生成文本的软件。语音识别软件通常使用训练以调谐其从音频到文本的转录。在一些情况中,用户可以读取通过语音识别软件知悉的预确定文本,因此语音识别软件可以精细调谐该人员的语音的识别。在许多实例中,用户可能无法读取预确定文本的简短段落以精细调谐语音识别软件。例如,对于语音识别服务而言,接收大型音频文件以用于转录并不罕见。可以提供非常长的电视广播以用于转录并且该大型音频文件成为训练材料。
附图说明
在以下描述中参考附图中所示的示例详细描述实施例。
图1图示了语音识别系统。
图2图示了可以用于语音识别系统的计算机系统。
图3-4图示了方法。
图5图示了语音训练数据中的中断时段的示例并且图示了计算针对不同中断时段的概率。
具体实施方式
出于简化和说明性目的,通过主要参考其示例来描述实施例的原理。在以下描述中,阐述大量特定细节以便提供实施例的全面理解。显而易见的是,可以在不限制于所有特定细节的情况下实践实施例。而且,实施例可以以各种组合一起使用。
根据实施例,语音识别系统利用训练功能来生成用于将音频转录成文本的隐马尔可夫模型(HMM)。训练功能在性质上是统计性的,并且语音识别系统声学模型可以从提供在要转录的大型音频文件中的口述词语和句子训练。
语音识别系统可以使用大型音频文件以用于在不将大型音频文件拆分成多个较小音频文件的情况下进行训练。一些语音识别系统将大型音频文件拆分成较小音频文件以得到可管理性。例如,由于有限量的存储器和其他计算机资源,大型音频文件可以被拆分成3-5分钟组块以用于训练。然而,由于音频文件被拆分,因此相关联的文本文件被拆分,使得它们形成多个音频转录文本对。拆分音频文件并且创建对应文本对可能是易出现错误且耗时的,并且可能要求专业人员。根据实施例的语音识别系统可以使用大型音频文件,其在长度上可以大于5分钟或者大于10分钟或者甚至大于30分钟以用于训练而不拆分文件。
语音识别系统可以生成HMM以用于将音频转录成文本。语音识别系统通过训练来生成并且精炼HMM,并且使用HMM以用于转录。HMM利用概率密度函数(pdf),其涉及由涉及词语或词语的部分的声学向量表示的观测的概率。一般地,概率分布在n维空间中为高斯分布。高斯分布的形状和位置由其平均值和方差定义。这些参数在训练期间确定并且是用于HMM的模型参数。一旦用于HMM的模型参数已经确定,HMM可以用于确定对应于词语的序列或词语的部分的观测序列的可能性。方法适用于离散概率HMM以及连续概率密度HMM二者,特别是混合高斯HMM。以下描述一般涉及连续概率密度高斯HMM,但是应当理解的是,离散概率HMM以及连续概率混合高斯HMM也在本公开的范围内。
HMM可以输出n维实数值向量的序列(其中n为小整数,诸如10),诸如对于被转录的语音的每10毫秒(ms)。向量包括倒谱系数,其可以通过进行语音的短时间窗口(例如10ms)的傅里叶变换并且使用余弦变换对频谱去相关,然后取第一(最高有效)系数来获取。HMM往往在每一个状态中具有作为对角协方差高斯的统计分布,其将给出针对每一个观测向量的可能性。每一个词语或每一个音素具有不同的输出分布。用于词语或音素序列的HMM可以通过序连用于词语和音素的各个经训练的HMM来生成。因此,HMM可以预测当前状态以估计用于语音的音素或词语。
用于语音识别系统的训练功能训练HMM。训练函数可以执行以下各项:(1)为包括语音在内的训练数据计算向前概率和向后概率;(2)基于向前概率和向后概率为训练数据计算针对HMM参数的累计值;以及(3)在每次迭代的结尾重估计用于每一个模型参数的值。Baum-Welch算法一般描述(1)-(3)。然而,根据实施例,对于(1),其包括为训练数据计算向前和向后概率,计算针对中断时段的概率,这不由Baum-Welch算法完成。而且,在训练数据中确定收敛时间,这同样不在Baum-Welch算法中完成。
从大型音频文件中的训练数据计算向前和向后概率可以在不将音频文件拆分成较小音频文件的情况下执行。例如,在音频文件中选择相继中断点。每一个中断点之间的时间段被称为中断时段。作为示例,中断时段在长度上可以如3-5分钟那样长或者如3-5秒那样短。可以使用其他长度。针对中断时段,计算向前概率直至中断点并且从中断点开始并且基于所计算的向前概率向后移动来计算经缩放的向后概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朗桑有限公司,未经朗桑有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380061791.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分离用数据处理装置以及程序
- 下一篇:一种人体靠近感应操作的电饭煲控制板