[发明专利]语音识别文本的纠错方法、装置、计算机设备和存储介质在审
申请号: | 201910903618.1 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110765763A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 宁义双;张良杰;闵刚 | 申请(专利权)人: | 金蝶软件(中国)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/242;G06F16/332 |
代理公司: | 44224 广州华进联合专利商标代理有限公司 | 代理人: | 于丽君 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别文本 语料库 语料 预设 语言模型 纠错词 流畅度 纠正 场景 计算机设备 纠错数据库 存储介质 用户意图 准确率 纠错 申请 通用 | ||
1.一种语音识别文本的纠错方法,所述方法包括:
利用预设的语言模型获取语音识别文本的流畅度,其中,所述预设的语言模型利用第一语料库和第二语料库的语料训练得到,所述第一语料库包括通用场景的语料,所述第二语料库包括预设场景的语料;
若所述语音识别文本的流畅度小于流畅阈值,获取所述语音识别文本中的待纠错词;
从纠错数据库中确定所述待纠错词对应的纠正词,根据所述纠正词得到纠正后的语音识别文本。
2.根据权利要求1所述的方法,其特征在于,所述纠错数据库的构建方式包括:
获取所述第二语料库的语料;
利用分词词典对所述第二语料库的语料进行分词,得到候选词;
根据所述候选词以及所述候选词的拼音构建所述纠错数据库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述候选词对应的混淆词;
将所述混淆词加入所述分词词典。
4.根据权利要求3所述的方法,其特征在于,所述获取所述语音识别文本中的待纠错词,包括:
利用所述分词词典对所述语音识别文本进行分词,得到文本词;
计算各个所述文本词的平均绝对偏差值;
若所述文本词的平均绝对偏差值大于偏差阈值,则判定所述文本词为所述待纠错词。
5.根据权利要求2所述的方法,其特征在于,所述从纠错数据库中确定所述待纠错词对应的纠正词包括:
从所述纠错数据库中确定所述待纠错词对应的纠错候选词;
在所述纠错候选词中确定所述纠正词。
6.根据权利要求5所述的方法,其特征在于,所述从所述纠错数据库中确定所述待纠错词对应的纠错候选词,包括:
获取所述待纠错词的拼音;
获取所述待纠错词的拼音与所述纠错数据库中的候选词的拼音的相似度;
将所述相似度大于相似阈值的候选词作为所述纠错候选词。
7.根据权利要求6所述的方法,其特征在于,所述获取所述待纠错词的拼音与所述纠错数据库中的候选词的拼音的相似度,包括:
获取所述待纠错词的拼音与所述纠错数据库中的候选词的拼音的编辑距离,利用所述编辑距离表征所述待纠错词的拼音与所述纠错数据库中的候选词的拼音的相似度。
8.根据权利要求5所述的方法,其特征在于,所述在所述纠错候选词中确定所述纠正词,包括:
利用所述纠错候选词替换所述语音识别文本中的待纠错词,并利用所述预设的语言模型计算替换后的所述语音识别文本的流畅度;
将所述流畅度满足预设条件的纠错候选词作为所述纠正词。
9.根据权利要求8所述的方法,其特征在于,所述预设的语言模型为二元语言模型和三元语言模型;
所述利用所述预设的语言模型计算替换后的所述语音识别文本的流畅度,包括:
将替换后的所述语音识别文本分别输入所述二元语言模型以及所述三元语言模型,得到所述二元语言模型输出的流畅度以及所述三元语言模型输出的流畅度;
将所述二元语言模型输出的流畅度以及所述三元语言模型输出的流畅度中的最大值,作为所述语音识别文本的流畅度。
10.一种语音识别文本的纠错装置,其特征在于,所述装置包括:
获取模块,用于利用预设的语言模型获取语音识别文本的流畅度,其中,所述预设的语言模型利用第一语料库和第二语料库的语料训练得到,所述第一语料库包括通用场景的语料,所述第二语料库包括预设场景的语料;
所述获取模块,还用于若所述语音识别文本的流畅度小于流畅阈值,获取所述语音识别文本中的待纠错词;
确定模块,用于从纠错数据库中确定所述待纠错词对应的纠正词,根据所述纠正词得到纠正后的语音识别文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶软件(中国)有限公司,未经金蝶软件(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910903618.1/1.html,转载请声明来源钻瓜专利网。