[发明专利]文本纠错方法、装置、设备及存储介质在审
申请号: | 202210262506.4 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114611494A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 姜鹏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F16/31;G06F16/35;G06N3/04;G06K9/62;G06F40/126;G06F40/151;G06F40/166;G06F40/253;G06F40/263;G06F40/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 设备 存储 介质 | ||
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:
获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息;
将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,其中,所述文本纠错模型中的编码器的架构为Transformer模型架构,所述文本纠错模型中的解码器架构为长短时记忆模型架构;
根据最小编辑距离算法,计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离;
对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理,得到文本纠错意见。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述将所述文本信息输入至预先训练得到的文本纠错模型进行文本纠错处理,得到所述文本信息对应的文本纠错结果,包括:
将所述文本信息输入至所述预先训练得到的文本纠错模型,通过采用所述Transformer模型架构的编码器对所述文本信息进行编码,得到文本编码;
根据注意力机制对所述文本编码进行线性变换和投影处理,计算所述文本编码对应的注意力值;
根据所述文本纠错模型中预设的方式对所述注意力值进行拼接组合,得到注意力值集合;
通过长短时记忆模型调用困惑度值计算算法,对所述注意力值集合中包含的注意力值进行迭代计算,得到对应的困惑度;
通过所述长短时记忆模型,根据所述困惑度对文本编码进行概率预测,得到概率预测结果;
通过所述长短时记忆模型,基于所述概率预测结果对所述文本编码进行解码,得到文本纠错结果。
3.根据权利要求1所述的文本纠错方法,其特征在于,所述根据最小编辑距离算法,计算所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离,包括:
提取所述文本信息和与之对应的所述文本纠错结果中的所有字符,形成字符集;
按照预设的拆分方法对所述字符集进行拆分,形成字符串;
根据所述文本信息和所述文本纠错结果之间的对应关系,将所述字符串转换成具有所述对应关系的字符矩阵,其中,所述字符矩阵包含所述字符串中所有字符的字符特征值;
根据预设的编辑操作类型,构建动态规划方程;
基于所述动态规划方程对所述字符矩阵中的各字符特征值进行编辑距离运算,得到所述文本信息包含的字符串和文本纠错结果包含的字符串之间的最小编辑距离。
4.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述文本信息包含的字符串和所述文本纠错结果包含的字符串按照所述最小编辑距离进行映射处理,得到文本纠错意见,包括:
根据所述最小编辑距离,对所述文本信息包含的字符串和所述文本纠错结果包含的字符串进行映射处理,得到字符串对应组,其中,每一个所述字符串对应组包括一个文本信息中的字符串和一个文本纠错结果中的字符串;
根据预设的编辑操作类型和所述字符串对应组中字符串之间的最小编辑距离,按照把所述文本信息中对应的字符串编辑成所述文本纠错结果中的字符串的编辑方向,构建编辑操作序列;
按照预设的输出方式输出包含所述文本信息和与其包含的字符串对应的编辑操作序列,得到文本纠错意见。
5.根据权利要求1-4中任一项所述的文本纠错方法,其特征在于,在所述获取待纠错文本数据,并对所述待纠错文本数据进行预处理,得到文本信息之前,还包括:
提取Transformer模型框架中的编码器和长短时记忆模型框架中的解码器;
在所述编码器和所述解码器之间进行嵌入层参数共享,并对嵌入层参数进行因式分解,构建混合架构模型;
从具有纠错信息的文本数据中构建训练数据集,基于所述训练数据集对所述混合架构模型进行学习训练,得到初始训练模型;
对所述初始训练模型进行量化处理,得到文本纠错模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262506.4/1.html,转载请声明来源钻瓜专利网。