[发明专利]文本纠错方法、装置、设备及存储介质在审
申请号: | 202210262506.4 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114611494A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 姜鹏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F16/31;G06F16/35;G06N3/04;G06K9/62;G06F40/126;G06F40/151;G06F40/166;G06F40/253;G06F40/263;G06F40/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 设备 存储 介质 | ||
本发明涉及语言处理技术领域,公开了一种文本纠错方法、装置、设备及存储介质。该方法通过对待纠错文本数据进行预处理,得到文本信息后输入至预先训练得到的文本纠错模型进行文本纠错处理,得到文本信息对应的文本纠错结果;根据最小编辑距离算法,计算文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照最小编辑距离进行映射处理,得到文本纠错意见;通过计算最小编辑距离得到本文纠错意见,以体现出错误内容与正确内容之间的关系,并给出错误内容在文本中的位置,以便于用户进行实时调整。
技术领域
本发明涉及语言处理技术领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
文本纠错指的是利用机器学习与自然语言处理技术自动对文本信息进行纠错处理。现有技术中所采用的文本纠错模型分为大体量模型和小体量模型,其中大体量模型通常设计地较大,内存要求高,而且实际纠错过程上具有时延;小体量模型只能输出最后的修正结果,但是没有给出具体的错误位置和错误类型。
综上所述,现有的文本纠错技术存在着在纠错过程中无法给出具体的错误位置和错误类型,不能对纠错内容直观显示的技术问题。
发明内容
本申请的主要目的是提供一种文本纠错方法、装置、设备及存储介质,以解决现有的纠错方案在纠错过程中无法给出具体的错误位置和错误类型,无法对纠错内容直观显示的问题。
本发明第一方面提供了一种文本纠错方法,所述文本纠错方法包括:获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型为混合架构的序列到序列模型,编码器部分采用Transformer模型架构,解码器部分采用长短时记忆模型架构;根据最小编辑距离算法,计算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离;对所述文本信息中包含的字符和与之对应的所述文本纠错结果中包含的字符按照所述最小编辑距离进行映射处理,得到文本纠错意见。
可选地,在本发明第一方面的第一种实现方式中,所述将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型为混合架构的序列到序列模型,编码器部分采用Transformer模型架构,解码器部分采用长短时记忆模型架构,包括:将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用所述Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值;根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合;通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果;通过所述长短时记忆模型,基于所述概率预测结果对所述文本编码进行解码,得到文本纠错结果。
可选地,在本发明第一方面的第二种实现方式中,所述根据最小编辑距离算法,计算所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离,包括:提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集;按照预设的拆分方法对所述字符集进行拆分,形成字符串;根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵,其中,所述字符矩阵包含所述字符串中所有字符的字符特征值;根据预设的编辑操作类型,构建动态规划方程;基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息中包含的字符和与其对应的文本纠错结果中包含的字符之间的最小编辑距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262506.4/2.html,转载请声明来源钻瓜专利网。