[发明专利]一种文本错误检测方法、装置、电子设备及存储介质在审
申请号: | 202010558705.0 | 申请日: | 2020-06-18 |
公开(公告)号: | CN113822052A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 余勇宏 | 申请(专利权)人: | 上海流利说信息技术有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 范志平 |
地址: | 200090 上海市杨浦区长阳路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 错误 检测 方法 装置 电子设备 存储 介质 | ||
1.一种文本错误检测方法,其特征在于,包括:
获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;
将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;
计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;
将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;
根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;
通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
2.根据权利要求1所述文本错误检测方法,其特征在于,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。
3.根据权利要求1所述文本错误检测方法,其特征在于,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:
将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;
将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;
根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。
4.根据权利要求3所述文本错误检测方法,其特征在于,所述对齐评价信息包括:
所述训练文本中对齐的实词与所在句子中所有实词数量的比值;
所述目标文本中对齐的实词与所在句子中所有实词数量的比值;
对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;
第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。
5.根据权利要求1所述文本错误检测方法,其特征在于,通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作包括:
确定待检测语句文本;
将所述待检测语句文本输入至所述语义不明检测模型,根据所述语义不明检测模型输出的检测结果判断所述待检测语句文本是否存在文本错误。
6.根据权利要求5所述文本错误检测方法,其特征在于,所述确定待检测语句文本包括:
若接收到语音信息,则将所述语音信息转换为所述第一语言的待检测语句文本。
7.根据权利要求1所述文本错误检测方法,其特征在于,在通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作之后,还包括:
在所述待检测语句文本标记存在错误的文本内容,并根据所述存在错误的文本内容生成所述第一语言的纠正文本。
8.一种文本错误检测装置,其特征在于,包括:
训练文本处理模块,用于获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;
语言翻译模块,用于将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;
目标文本处理模块,用于计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;
词对齐模块,用于将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;
模型训练模块,用于根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;
检测模块,用于通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海流利说信息技术有限公司,未经上海流利说信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010558705.0/1.html,转载请声明来源钻瓜专利网。