[发明专利]一种基于UniLM的中文语法纠错方法在审

申请号：	202210450638.X	申请日：	2022-04-26
公开（公告）号：	CN114881009A	公开（公告）日：	2022-08-09
发明（设计）人：	黄继风;冯雅	申请（专利权）人：	上海师范大学
主分类号：	G06F40/253	分类号：	G06F40/253;G06N3/04;G06N3/08
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	杨宏泰
地址：	200234 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 unilm 中文语法纠错方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于UniLM的中文语法纠错方法，包括以下步骤：步骤A：利用爬虫技术采集Lang‑8网站母语非中文学习者书写语句和对应批改语句，并对语句进行清洗生成语料库；步骤B：对语料库进行预处理后划分训练集和验证集；步骤C：结合预训练模型，对构建的基于UniLM的中文语法纠错模型采用训练集进行微调训练；步骤D：使用训练好的纠错模型采用验证集进行验证，并对纠错效果进行评价，并利用该纠错模型输入待纠错语句进行纠错。与现有技术相比，本发明具有精确率高、误判率低、性能好等优点。

技术领域

本发明涉及中文文本纠错技术领域，尤其是涉及一种基于UniLM的中文语法纠错方法。

背景技术

在互联网时代，全世界每时每刻都要产生海量的文本数据，其中夹杂许多错误信息，如果不经过校对处理，这些错误数据将会对后续工作产生很大的影响。常规的人工校对已经无法跟上当今文本产生的速度，随着深度学习和自然语言处理技术的发展，学术界以及工业界纷纷开展文本纠错研究。文本错误可以分成浅层和深层，拼写错误和标点错误属于前者，而语法错误属于后者。浅层错误可以通过规则和语言模型纠正，而传统的基于机器学习的校正方法面对深层错误的表现不尽人意，可见深层次的纠错是目前文本纠错技术的核心与难点。

目前文本语法纠错研究主要方向是基于深度学习，利用神经网络模型进行大规模语法纠错任务训练，主流的基于深度学习的纠错方案有两种：一种是把纠错任务分成错误判断、错误识别、错误标注和错误纠正等子任务，集成多个子模型实现语法纠错，通常使用BiLSTM+CRF序列标注模型。这种方法上一个子模型结果的好坏会影响到下一子模型，产生错误传递，从而影响整个系统性能；另一种是将纠错任务看成错误句到正确句的“翻译”任务，选择端到端的神经翻译模型，直接实现语法纠错，但是目前纠错的性能的速度都不能满足要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于UniLM的中文语法纠错方法。

本发明的目的可以通过以下技术方案来实现：

一种基于UniLM的中文语法纠错方法，该方法包括以下步骤：

步骤A：利用爬虫技术采集Lang-8网站母语非中文学习者书写语句和对应批改语句，并对语句进行清洗生成语料库；

步骤B：对语料库进行预处理后划分训练集和验证集；

步骤C：结合预训练模型，对构建的基于UniLM的中文语法纠错模型采用训练集进行微调训练；

步骤D：使用训练好的纠错模型采用验证集进行验证，并对纠错效果进行评价，并利用该纠错模型输入待纠错语句进行纠错。

所述的步骤A中，对语句进行清洗筛选的原则具体包括：

若每个原语句不止对应一个批改句，则选择其中一个批改句与原语句组成语句对；

若原语句没有对应批改句，即语句正确，则复制其本身组成语句对；

原语句和批改句的句长选取范围为10～80个字。