[发明专利]自动语音-文本转换系统和方法有效
申请号: | 200980148155.7 | 申请日: | 2009-11-12 |
公开(公告)号: | CN102227767A | 公开(公告)日: | 2011-10-26 |
发明(设计)人: | 马克·品森;老戴维·品森;玛丽·弗拉纳根;沙洛克·马坎范德 | 申请(专利权)人: | SCTI控股公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 徐金国;谢雪闽 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 语音 文本 转换 系统 方法 | ||
相关申请的交叉引用
本专利申请要求于2009年11月11日提交的美国专利申请第12/616723号“自动语音-文本转换系统和方法”以及于2008年11月12日提交的美国临时专利申请第61/113910号的权益,这里通过引用而结合其全文于此。
技术领域
本发明一般涉及自动语音识别。更特别地,本发明涉及通过使用语音信号的最健壮和相关的特征(包括时间信息)以及根据感知聚类推导的模式、并使用新颖的机器学习技术处理该信息来改善自动语音识别的技术。
背景技术
语音感知信息不均匀地分布在频率、振幅和时间中。在每个方面,语音都是高度可变的。大多数自动语音识别系统以单一标度的均匀分隔的间隔来提取信息。在人类语音感知上,已知可以通过时间特征来辨别一些语音类型,但是在典型的现有技术语音识别系统中,并没有充分利用语音的时间特征。
大多数现有技术的自动语音识别系统包括使用均匀的短持续时间(典型地为20-30毫秒)分析帧、以均匀的时间步长(典型地为10-15毫秒)从语音信号中提取信息的过程。基于单一短时观测向量进行语音分类是不可靠的,因为语音信号是高度动态的,并且随着各种语音的发出而不断变换。事实上,必须使用长时模式来构建可用的系统。
本领域已知的一种可实现较长时模式的方法是,保存多个短时观测向量,然后将其同时提供给语音分类器。这种方法使用的分类器通常为人工神经网络或相关模板。虽然保存短时观测向量带来了改善的结果,但是仍然存在一些问题。
首先,对于所有基于帧的方法都常用的这种均匀时间步长采样与语音信号不同步。因此,语音事件与观测帧的关系是随机的。这就导致增加了所提取特征和时间细节量化的可变性。
其次,基于均匀分析帧的提取不是最优的。用于感知人类语音的信息以许多不同的时间标度产生。例如,发“t”音的爆破音的时长可能只有几毫秒的持续时间,而一个元音可以维持超过一秒。一个由许多短时观测构成的序列不能提供与长时观测相同的信息,反之亦然。
语音的一些特征在时间维度上是高度可变的。例如,元音维持的长度取决于说话者、语速、该元音是否重音音节以及包含该音节的单词位于语句中的什么位置。这种时间可变性使得语音信息移动到不同的相对观测帧,显著增加了相同语音类型的不同实例的提取值的可变性,并且使得在存储器中检测有意义的模式变得困难。
此外,基于帧的系统还通常将所有帧看作是同等重要的。相反地,人类感知使用信号中具有最佳信噪比、并且包含与进行所需要辨别最相关和最可靠的那些特征的部分。
大多数现有技术的自动语音识别系统使用了隐马尔可夫模型。隐马尔可夫模型是随机状态机。隐马尔可夫模型将从观测向量估计的类型概率映射到隐含(未观测到的)类型概率的可能序列。通过使用隐马尔可夫模型,可以允许每个非输出状态转移到其自身,从而解决了上述的时间可变性问题。通过使用自转移状态,“吸收”了时间可变性。遗憾的是,除非该方法被修正为清楚地提取时长信息,否则该方法会将不想要的和想要的时间信息一起去除。语音事件的时间关系携带了用于感知语音、特别是用于辨别爆破音、塞擦音和摩擦音的重要信息。另外,类型概率的健壮估计需要巨大数量的训练数据。当使用条件与训练条件不同时,该概率估计会变的非常不准确,从而导致识别效果很差。
大多数现有技术的自动语音识别系统使用的特征主要是从短时谱轮廓推导出的。这种方法被经常使用,是因为许多语音具有某种特性频率峰值,被称为“共振峰”。目前的其他系统所采用的一种非常不同的方法的关注点在于频带的长时轨迹(trajectories)。在一种称为TRAP(时间模式)的方法中,语音被建模为声音实例的平均长时期(~1秒)轨迹。基于语音信号包络与每个TRAP模型的相关性来执行分类。据报告,这种方法的一些版本获得了可与短时谱方法相比的结果。这些结果表明,对于辨识语音有用的信息在时间上的分布超出了音素切分的边界。由于在该方法中使用了平均和加窗,因此在TRAP中心附近的信息相对于更远处的信息被加强。TRAP捕获总的趋势,但是不捕获时间细节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于SCTI控股公司,未经SCTI控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980148155.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变应原失活剂
- 下一篇:多用户多输入多输出系统广播信道功率分配方法及系统