[发明专利]一种文本处理方法、装置、设备及介质、程序产品有效

申请号：	202110506873.X	申请日：	2021-05-10
公开（公告）号：	CN113221545B	公开（公告）日：	2023-08-08
发明（设计）人：	林雨;吴培昊;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G06F40/253	分类号：	G06F40/253;G06F40/216;G06F40/284
代理公司：	北京信远达知识产权代理有限公司 11304	代理人：	姚莹丽
地址：	101299 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本处理方法装置设备介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本处理方法，该方法包括获取待处理文本中原语句对应的多个候选修改句，然后根据原语句以及多个候选修改句，通过评估模型获得多个候选修改句的第一评分，该评估模型为双向预训练模型通过文本纠错语料迁移学习得到，接着根据第一评分从多个候选修改句中确定原语句的目标修改句。该方法中评估模型具有双向预训练模型带来的高效以及高性能的特点，进而得到的第一评分的准确度更高，根据准确度较高的第一评分确定目标修改句，能够提高语法纠错的准确率，满足业务需求。

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种文档文本处理方法、装置、设备以及计算机可读存储介质、计算机程序产品。

背景技术

随着自然语言处理(natural language processing，NLP)技术的不断发展，对文本进行自动语法纠错逐渐成为了热门研究方向。在语言学习中，对文本的语法错误进行修改，能够辅助学习者更好地进行语言学习；在语言应用中，修改其语法错误，能够使得语言表达更加得体。

目前，语法纠错主要是通过生成模型实现的，该生成模型包括编码器和解码器。其中，编码器用于对编码有误的病句进行编码，然后通过一个解码器进行正确句子的生成。为了提高语法纠错精度，业界还提出了一种束搜索(beam search)算法。具体地，服务器可以基于beam search生成N个最优备选结果，然后利用生成模型评估修改概率，并以此进行排序，根据排序结果可以确定正确句子。

然而，服务器利用生成模型直接评估修改概率并对修改概率进行排序以获得正确句子的方案，并未大幅提升语法纠错的准确率，难以满足业务需求。

发明内容

本公开提供了一种文本处理方法，该方法中，评估模型为双向预训练模型通过文本纠错语料迁移学习得到，进而该评估模型具有双向预训练模型带来的高效和高性能的特点，进而得到的第一评分的准去度较高。如此，根据准确度较高的第一评分来确定目标修改句，能够提高语法纠错的准确率，满足业务需求。本公开还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本公开提供了一种文本纠错方法，该方法包括：

获取待处理文本中原语句对应的多个候选修改句；

根据所述原语句以及所述多个候选修改句，通过评估模型获得所述多个候选修改句的第一评分，所述评估模型为双向预训练模型通过文本纠错语料迁移学习得到；

根据所述第一评分从所述多个候选修改句中确定所述原语句的目标修改句。

第二方面，本公开提供了一种文本纠错方法，该方法包括：

接收用户输入的待处理文本；

根据所述待处理文本生成文本处理请求，向服务器发送所述文本处理请求；

接收根据多个候选修改句的第一评分确定的所述待处理文本中原语句的目标修改句；所述第一评分根据所述原语句和所述多个候选修改句通过评估模型得到；所述评估模型为双向预训练模型通过文本纠错语料迁移学习得到；

向所述用户呈现所述目标修改句。

第三方面，本公开提供了一种文本纠错装置，该装置包括：

获取模块，用于获取待处理文本中原语句对应的多个候选修改句；

评分模块，用于根据所述原语句以及所述多个候选修改句，通过评估模型获得所述多个候选修改句的第一评分，所述评估模型为双向预训练模型通过文本纠错语料迁移学习得到；