[发明专利]用于语言学习机的发音质量评价方法有效
申请号: | 200510114848.8 | 申请日: | 2005-11-18 |
公开(公告)号: | CN1763843A | 公开(公告)日: | 2006-04-26 |
发明(设计)人: | 梁维谦;董明;丁玉国;刘润生 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/28;G10L15/02;G10L15/04;G10L15/06;G10L15/08 |
代理公司: | 北京清亦华知识产权代理事务所 | 代理人: | 廖元秋 |
地址: | 1000*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及用于语言学习机的发音质量评价方法,属于计算机辅助语言学习和语音技术领域,包括用于训练的语音特征提取,标准发音模型训练,标准发音网络的生成,语音端点检测,用于评价的语音特征提取,最优路径搜索,以及发音质量分数的计算各部分;本发明的发音质量评价方法具有与主观评价相关性较高、稳健性好等特点。构成的嵌入式英语学习系统可以用于人机交互教学和自动口语测试。 | ||
搜索关键词: | 用于 语言 学习机 发音 质量 评价 方法 | ||
【主权项】:
1、一种用于语言学习机的发音质量评价方法,包括用于训练的语音特征提取,标准发音模型训练,标准发音网络的生成,语音端点检测,用于评价的语音特征提取,最优路径搜索,以及发音质量分数的计算各部分;其特征在于,各部分的实现方法具体包括以下步骤:A、用于训练的语音特征提取:(1)预先建立包含大量朗读语音的训练数据库;(2)对所说的训练数据库中的每个语音文件中的数字语音进行预加重和分帧加窗处理,得到具有准平稳性的分帧语音;(3)对所说的分帧语音提取语音特征,该语音特征为倒谱系数;B、标准发音模型训练(1)利用步骤A所说的语音特征训练得到基于音素的标准发音模型;(2)对所说的标准发音模型进行汉语人群口音的自适应作为最终的标准发音模型,优化模型对汉语人群的评价性能;C、标准发音网络的生成对给定的文本进行单词切分,查找发音字典得到音素标注,最后利用所说的基于音素的标准发音模型得到以状态为节点的线性标准发音网络;D、语音端点检测:(1)模拟语音信号经过A/D变换,得到数字语音;(2)对所说的数字语音进行预加重和分帧加窗处理,得到具有准平稳性的分帧语音;(3)对所说的分帧语音计算得到时域对数能量;(4)采用滑动平均滤波的方法由所说的时域对数能量得到用于端点检测的端检特征;(5)采用上限和下限双阈值和有限状态机结合的方法,对所说的端检特征进行端点检测,得到语音的起始和结束端点;E、用于评价的语音特征提取对步骤D所说的分帧语音提取语音特征,过程与步骤A的第(3)步相同。F、最优路径搜索:(1)将步骤E所说的语音特征与步骤C所说的标准发音网络进行强制匹配,得到网络中所有可能的路径信息;(2)利用所说的路径信息,从网络允许的终止节点回溯出最优路径;G、发音质量分数的计算:(1)利用步骤F中所说的最优路径信息计算得到每帧语音特征的置信分数;(2)利用步骤F中所说的最优路径信息计算路径上每个状态的置信分数;对最优路径上所有状态的置信分数取平均得到整句的置信分数;(3)利用映射函数将所说的整句置信分数映射到主观评价分数区间,得到最终的发音质量分数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510114848.8/,转载请声明来源钻瓜专利网。