[发明专利]一种特定领域的语音识别文本纠错方法、系统和存储介质在审
申请号: | 202011294715.4 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112489655A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 顾文元;曾祥云;张雪源 | 申请(专利权)人: | 元梦人文智能国际有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/28;G10L15/04;G06F40/232 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 何琦 |
地址: | 中国香港中环夏慤道1*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特定 领域 语音 识别 文本 纠错 方法 系统 存储 介质 | ||
1.一种特定领域的语音识别文本纠错方法,其特征在于,包括:
获取待纠错的文本序列;
使用预先训练好的通用领域语料模型识别所述文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;
使用预先训练好的特定领域语料模型识别所述文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;
当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,判断所述文本序列中存在错误,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单;
将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列;
使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过,输出所述纠正序列作为纠正结果。
2.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于,所述根据所述通用领域判定结果确定通用领域候选词清单包括:
计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;
获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;
根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单。
3.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于,所述根据所述特定领域判定结果确定特定领域候选词清单包括:
计算预先建立的特定领域词汇表中的词与所述错误字词的特定领域拼音编辑距离集;
获取所述特定领域词汇表中的词与所述错误字词的特定领域最大公共子串集;
根据所述特定领域拼音编辑距离集和所述特定领域最大公共子串集建立所述通用领域候选词清单。
4.根据权利要求1所述的一种特定领域的语音识别文本纠错方法,其特征在于,所述获取待纠错的文本序列包括:获取语音识别文本;
对所述语音识别文本进行分句处理得到文本序列。
5.根据权利要求4所述的一种特定领域的语音识别文本纠错方法,其特征在于,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单包括:
对所述文本序列进行分词处理,得到分词处理结果;
根据分词处理结果获取N-gram短语集;
统计所述分词处理结果中每个词的词频,得到词频集;
计算所述N-gram短语集中每个N-gram短语的相减项,得到相减项集;
根据所述相减项集和所述词频集计算所述N-gram短语集中对应的每个N-gram短语的伪概率;
根据所述N-gram短语的伪概率构建所述通用领域候选词清单和所述特定领域候选词清单。
6.根据权利要求5所述的一种特定领域的语音识别文本纠错方法,其特征在于,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单还包括:
合并所述分词处理结果中的相同词汇。
7.根据权利要求5所述的一种特定领域的语音识别文本纠错方法,其特征在于,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单还包括:
统计所述N-gram短语集中每个N-gram短语在所述文本序列中第一个词的种类数量,并得到第一词集;
根据所述词频集中的每个词的词频在所述第一词集中对应的词频调整所述词频集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于元梦人文智能国际有限公司,未经元梦人文智能国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011294715.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现偏振稳定的控制方法及系统
- 下一篇:一种铁路贯通地线的接续方法