[发明专利]文本纠错方法、装置、设备及存储介质有效
申请号: | 202110117570.9 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112905737B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 邓悦;郑立颖;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/16;G06F40/284;G06F18/214 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了文本纠错方法、装置、设备及存储介质,用于解决待纠错语料文本未对齐的问题,提高文本纠错的准确率。文本纠错方法包括:获取待纠错文本语料,并将待纠错文本语料输入预先训练好的嵌入层,生成待纠错词向量组;将待纠错词向量组输入预先训练好的检测判别器中,生成词向量的位置信息;按照词向量的位置信息对待纠错词向量组进行掩码覆盖,生成覆盖后的词向量组;将覆盖后的词向量组输入预先训练好的纠错网络中,生成纠错后的文本语料,并基于预先训练好的纠错网络还原纠错后的文本语料,生成目标文本语料,纠错后的文本语料包括占位符。此外,本发明还涉及区块链技术,待纠错文本语料可存储于区块链中。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
在公文撰写、文案编辑、输入法纠错、以及语音识别后的文本结果输出等与自然语言文本相关的处理环节中,多字、错字、漏字等情况是时有发生的,针对这种情况设置专门的人工校对核验需要较高的人工成本和时间成本,同时很多时候也无法保证较高的纠正准确率。因此,出现了一些文本纠错的相关人工智能模型,其广泛的应用到现实场景之中。
在现有技术中,传统的机器学习或统计相关的模型在文本纠错领域的表现不尽如人意,主要利用双向预训练语言模型对文本进行纠错,但是这种纠错方式对英文这种非对齐语料进行文本纠错的纠错准确率较低。
发明内容
本发明提供了一种文本纠错方法、装置、设备及存储介质,用于解决待纠错语料文本未对齐的问题,提高文本纠错的准确率。
本发明第一方面提供了一种文本纠错方法,包括:获取待纠错文本语料,并将所述待纠错文本语料输入预先训练好的嵌入层,生成待纠错词向量组;将所述待纠错词向量组输入预先训练好的检测判别器中,生成词向量的位置信息;按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖,生成覆盖后的词向量组;将所述覆盖后的词向量组输入预先训练好的纠错网络中,生成纠错后的文本语料,并基于所述预先训练好的纠错网络还原所述纠错后的文本语料,生成目标文本语料,所述纠错后的文本语料包括占位符。
可选的,在本发明第一方面的第一种实现方式中,所述获取待纠错文本语料,并将所述待纠错文本语料输入预先训练好的嵌入层,生成待纠错词向量组包括:获取待纠错文本语料,并对所述待纠错文本语料进行独热编码,生成待纠错文本编码;从预先训练好的嵌入层中读取映射矩阵,并将所述待纠错文本编码输入所述预先训练好的嵌入层中,将所述待纠错文本编码与所述映射矩阵相乘,生成待纠错词向量组。
可选的,在本发明第一方面的第二种实现方式中,所述将所述待纠错词向量组输入预先训练好的检测判别器中,生成词向量的位置信息包括:将所述待纠错词向量组和所述待纠错文本语料,输入检测线性层中进行计算,生成待计算向量组,所述检测线性层位于预先训练好的检测判别器中;按照预置的标识符概率公式对所述待计算向量组进行概率计算,生成位置概率;基于所述位置概率确定词向量的位置信息。
可选的,在本发明第一方面的第三种实现方式中,所述按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖,生成覆盖后的词向量组包括:获取预置的修改幅度参数,所述修改幅度参数为自然数;基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量,所述目标待纠错词向量的位置信息为错别字词向量的位置信息;基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖,生成覆盖后的词向量组。
可选的,在本发明第一方面的第四种实现方式中,所述将所述覆盖后的词向量组输入预先训练好的纠错网络中,生成纠错后的文本语料,并基于所述预先训练好的纠错网络还原所述纠错后的文本语料,生成目标文本语料,所述纠错后的文本语料包括占位符包括:将所述覆盖后的词向量组输入纠错隐藏层中进行计算,生成纠错后的文本语料,所述纠错隐藏层位于预先训练好的纠错网络中,所述纠错后的文本语料包括占位符;基于所述预先训练好的纠错网络对所述占位符进行预测,生成预测后的占位符语料;基于所述预测后的占位符语料和所述纠错后的文本语料,生成目标文本语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110117570.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于风能的抗风型驱鸟式气象传感器
- 下一篇:一种耐用型水龙头