[发明专利]一种文本纠错方法及装置在审
申请号: | 202111649003.4 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114386399A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 宁一鉴;陈琳莉;杨娟;钟凯;罗中鸣;冯静 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/35;G10L15/22;G10L15/26 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 田小倩 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 装置 | ||
1.一种文本纠错方法,其特征在于,包括:
基于语音识别系统输出的语音识别文本,对所述语音识别文本进行识别,分别得到所述语音识别文本的错误信息、所述语音识别文本的文本语义及所述语音识别文本的领域信息;
基于所述错误信息、所述文本语义及所述领域信息,通过文本纠错模型中的位置子模型,得到所述语音识别文本的纠错位置;通过所述文本纠错模型中的纠错子模型,对所述纠错位置的错误文本进行纠错,得到纠错后的语音识别文本;所述文本纠错模型是通过对所述位置子模型的第一损失值和所述纠错子模型的第二损失值进行训练得到的。
2.如权利要求1所述的方法,其特征在于,
所述对所述语音识别文本进行识别,得到所述语音识别文本的错误信息,包括:
通过错误学习模块,对所述语音识别文本进行识别,得到所述语音识别文本的错误信息;所述错误学习模块用于对历史样本中的原始文本和纠错文本进行对照比较,生成并存储各错误信息。
3.如权利要求1所述的方法,其特征在于,
所述对所述语音识别文本进行识别,得到所述语音识别文本的文本语义,包括:
通过文本语义获取模块,对所述语音识别文本进行识别,得到所述语音识别文本的文本语义;所述文本语义获取模块是通过对历史样本中的原始文本进行词向量学习,并基于词向量进行语义学习得到的。
4.如权利要求1所述的方法,其特征在于,
所述对所述语音识别文本进行识别,得到所述语音识别文本的领域信息,包括:
通过领域信息获取模块,对所述语音识别文本进行识别,得到所述语音识别文本的领域信息;所述领域信息获取模块是通过对历史样本中的原始文本的词向量进行领域学习,基于领域对所述原始文本的领域词向量设定领域权重。
5.如权利要求1-4任一项所述的方法,其特征在于,
所述文本纠错模型通过如下方式训练得到,包括:
针对历史样本中的原始文本和纠错文本,通过所述错误学习模块得到所述原始文本的错误信息;所述错误信息包括纠错位置和纠错信息;
针对历史样本中的原始文本,通过所述文本语义获取模块得到所述原始文本的文本语义;
针对历史样本中的原始文本,通过所述领域信息获取模块得到所述原始文本的领域信息;
将所述原始文本的错误信息、所述原始文本的文本语义和所述原始文本的领域信息作为所述文本纠错模型的输入值,将所述错误信息的纠错位置作为所述位置子模型的标签值,将所述错误信息的纠错信息作为所述纠错子模型的标签值,对所述文本纠错模型进行训练。
6.如权利要求1-4任一项所述的方法,其特征在于,所述纠错子模型包括基于生成模式的第一子模型、基于判定模式的第二子模型和评测子模型;
所述通过所述文本纠错模型中的纠错子模型,对所述纠错位置的错误文本进行纠错,得到纠错后的语音识别文本,包括:
通过所述第一子模型,对所述纠错位置的错误文本进行纠错,得到第一纠错结果;
通过所述第二子模型,对所述纠错位置的错误文本进行纠错,得到第二纠错结果;
通过所述评测子模型,对所述第一纠错结果和所述第二纠错结果进行评测,将满足评测结果的纠错结果作为纠错后的语音识别文本。
7.如权利要求6所述的方法,其特征在于,
所述对所述第一纠错结果和所述第二纠错结果进行评测,将满足评测结果的纠错结果作为纠错后的语音识别文本,包括:
基于所述第一纠错结果与所述语音识别文本中的各词向量之间的词语语义距离及所述第一纠错结果与所述语音识别文本的句子语义距离,确定第一评分;
基于所述第二纠错结果与所述语音识别文本中的各词向量之间的词语语义距离及所述第二纠错结果与所述语音识别文本的句子语义距离,确定第二评分;
将所述第一评分和所述第二评分中评分低的纠错结果,作为纠错后的语音识别文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111649003.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声屏板抽芯工艺
- 下一篇:开关功能与操作功能分离的开关柜