[发明专利]中文语法纠错方法及系统、存储介质及终端在审

专利信息
申请号: 202211234582.0 申请日: 2022-10-10
公开(公告)号: CN115455949A 公开(公告)日: 2022-12-09
发明(设计)人: 不公告发明人 申请(专利权)人: 上海蜜度信息技术有限公司
主分类号: G06F40/253 分类号: G06F40/253;G06F40/232;G06F40/30;G06F40/205
代理公司: 上海光华专利事务所(普通合伙) 31219 代理人: 徐秋平
地址: 201204 上海市浦东新区中国上海浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 语法 纠错 方法 系统 存储 介质 终端
【说明书】:

发明提供一种中文语法纠错方法及系统、存储介质及终端,包括以下步骤:基于自编码网络模型获取中文输入文本的语义信息,基于所述语义信息生成所述中文输入文本的语法纠错文本;基于语言模型对所述语法纠错文本进行合理性判断,以获取最终中文文本。本发明的中文语法纠错方法及系统、存储介质及终端基于多任务深度学习算法实现有效的中文语法纠错,具有良好的泛化能力。

技术领域

本发明涉及中文语法纠错的技术领域,特别是涉及一种中文语法纠错方法及系统、存储介质及终端。

背景技术

由于用户习惯、电脑输入法等原因,在网络上发布中文时难免会出现一些中文语法错误,如多字错误、少字错误、语义重复、句式杂糅等。其中,多字错误如“人数超过100个”被误写为“人人数超过100个”;少字错误如“中国的首都是北京”被误写为“中国的都是北京”;语义重复如“人数超过100”被误写为“人数超过100以上”。

中文语法错误诊断(Chinese Grammatical Error Diagnosi)是中文自然语言处理(Natural Language Processing,NLP)中的一项基本任务,旨在自动检测和纠正中文句子中的语法错误。现有技术中,中文语法错误诊断方法主要包括以下两种:

(1)基于词库和规则的语法纠错方法

该方法需要耗费大量人力资源去维护一个规则库,泛化性较差。同时,随着时间的推移,规则越来越多,规则之间可能会出现各种各样的问题。比如传统中文语法纠错方法经常会由于无法理解语义而做出一些错误的行为。例如在多字错误中将“山西西部地区出现降雨” 修改成 “山西部地区出现降雨”。这是因为‘山西西’容易被不严谨的规则判断有问题。

(2)基于深度学习的方法

该方法能够提升一定的泛化能力。现有的深度学习方法通常使用基于GPT(Generative Pre Training)的自回归网络模型进行语法纠错。但是,该网络模型的网络速度比较慢,在实际生产使用的过程中会消耗大量的时间和资源。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种中文语法纠错方法及系统、存储介质及终端,基于多任务深度学习算法实现有效的中文语法纠错,具有良好的泛化能力。

为实现上述目的及其他相关目的,本发明提供一种中文语法纠错方法,包括以下步骤:基于自编码网络模型获取中文输入文本的语义信息,基于所述语义信息生成所述中文输入文本的语法纠错文本;基于语言模型对所述语法纠错文本进行合理性判断,以获取最终中文文本。

于本发明一实施例中,基于多层语义编码器获取中文输入文本的语义信息。

于本发明一实施例中,所述语义编码器采用Transformer blocks模型。

于本发明一实施例中,基于所述语义信息生成所述中文输入文本的语法纠错文本包括以下步骤:

基于所述语义信息检测所述中文输入文本的语法错误;

基于所述语义信息和所述语法错误对所述中文输入文本进行纠正,获取语法纠错文本。

于本发明一实施例中,基于所述语义信息和所述语法错误对所述中文输入文本进行纠正,获取语法纠错文本包括以下步骤:

基于所述语义信息和所述语法错误,生成所述中文输入文本的每个文字的标签;其中,对于不存在语法错误的文字,标签设置为第一预设符号;对于存在语法错误的文字,根据所述语义信息需删除时,标签设置为第二预设符号;对于存在语法错误的文字,根据所述语义信息需在后面增加文字时,标签设置为第三预设符号和所增加的文字;

将所述中文输入文本的每个文字的标签依次映射为对应的文字,以获取所述语法纠错文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海蜜度信息技术有限公司,未经上海蜜度信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211234582.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top