[发明专利]一种对语音识别后文本进行检错并纠错的方法有效
申请号: | 200910092461.5 | 申请日: | 2009-09-08 |
公开(公告)号: | CN101655837A | 公开(公告)日: | 2010-02-24 |
发明(设计)人: | 李蕾;龙丽霞;王兴建;王骏 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G10L15/00 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 谢安昆;宋志强 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对语音识别后文本进行检错并纠错的方法,用于依次对语音识别后文本中的文本句进行检错并纠错:分别创建所述语音识别后文本中的文本句所属领域的第二语法知识库、第二语义知识库和第二语境知识库;基于所述第二语法知识库和所述第二语义知识库定位文本句中的锚点词,并基于所述第二语境知识库抽取所述定位的锚点词的实例;基于第一语义知识库和所述抽取的实例对文本句进行检错;基于第一语法知识库和所述抽取的实例对检错后得到的错误词语进行纠错。应用本发明所述的方法,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。 | ||
搜索关键词: | 一种 语音 识别 文本 进行 检错 纠错 方法 | ||
【主权项】:
1、一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括:按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910092461.5/,转载请声明来源钻瓜专利网。