[发明专利]一种文本错误检测方法、装置、电子设备及存储介质在审
申请号: | 202010558705.0 | 申请日: | 2020-06-18 |
公开(公告)号: | CN113822052A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 余勇宏 | 申请(专利权)人: | 上海流利说信息技术有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/30 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 范志平 |
地址: | 200090 上海市杨浦区长阳路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 错误 检测 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种文本错误检测方法,所述文本错误检测方法包括获取第一语言的训练文本,并确定训练文本的困惑度和语法错误信息;将训练文本翻译为第二语言的枢轴语言文本,将枢轴语言文本翻译为第一语言的目标文本;计算训练文本与目标文本的文本相似度,并确定目标文本的困惑度;将训练文本和目标文本分别与枢轴语言文本进行词对齐操作,得到训练文本和目标文本的对齐评价信息;训练初始模型得到语义不明检测模型,通过语义不明检测模型对待检测语句文本执行文本错误检测操作。本申请能够检测文本中的语义不明错误,提高文本检测的精准度。本申请还公开了一种文本错误检测装置、一种电子设备及一种存储介质,具有以上有益效果。
技术领域
本申请涉及文本检测技术领域,特别涉及一种文本错误检测方法、装置、一种电子设备及一种存储介质。
背景技术
在互动式语法反馈教学中,对用户输入的文本进行错误检测能够提高教学质量。文本中的语义不明错误为导致文本存在歧义的错误,在相关技术中,当用户的输入为语义不明的句子时,则直接判定为检测到语法错误并进行语法纠错,这种纠错方式往往会造成将错误的地方改成仍然是错误的表达,上述方式无法了解用户的真实表达意图并提供有意义的反馈。
因此,如何检测文本中的语义不明错误,提高文本检测的精准度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文本错误检测方法、装置、一种电子设备及一种存储介质,能够检测文本中的语义不明错误,提高文本检测的精准度。
为解决上述技术问题,本申请提供一种文本错误检测方法,该文本错误检测方法包括:
获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;
将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;
计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;
将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;
根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;
通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
可选的,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。
可选的,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:
将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;
将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;
根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。
可选的,所述对齐评价信息包括:
所述训练文本中对齐的实词与所在句子中所有实词数量的比值;
所述目标文本中对齐的实词与所在句子中所有实词数量的比值;
对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海流利说信息技术有限公司,未经上海流利说信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010558705.0/2.html,转载请声明来源钻瓜专利网。