[发明专利]一种基于编辑方法的文本对比学习纠错系统、方法及装置在审

专利信息
申请号: 202210155865.X 申请日: 2022-02-21
公开(公告)号: CN114548053A 公开(公告)日: 2022-05-27
发明(设计)人: 钟勇;陈科 申请(专利权)人: 中科院成都信息技术股份有限公司;成都中科信息技术有限公司
主分类号: G06F40/166 分类号: G06F40/166;G06F40/169;G06F40/232;G06F40/126
代理公司: 成都知都云专利代理事务所(普通合伙) 51306 代理人: 陈钱
地址: 610000 四川省成都市高新*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 编辑 方法 文本 对比 学习 纠错 系统 装置
【说明书】:

发明公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置,涉及文本纠错技术领域。本发明首先对输入的源文本送入编码器和解码器A,得到源文本表示向量,通过表示向量预测出对每个字符需要进行的操作,利用预测出的操作及文本表示向量预测出操作在文本的结束位置,接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法,对源文本进行编辑操作,得到目标文本。相较于端到端纠错模型,本实施例通过引入对比学习模块,增加了编码模块的表示能力;分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。

技术领域

本发明涉及文本纠错技术领域,尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。

背景技术

随着科技的进步与时代的发展,越来越多的智能技术运用在我们日常生活中,帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感,故需要我们通过技术的手段对源文本进行文本纠错。

文本纠错主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现自然语言处理的技术水平,且具有广阔的应用前景。

国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用,这些系统根据使用者目的找出文本中的拼写错误,语法错误。中文文本纠错有两种解决思路,基于规则和深度模型。基于规则的解决思路:通过切词,从字粒度和词粒度两方面检测,形成疑似错误位置候选集,遍历疑似错误位置,并使用音似、形似词典替换错误位置的词,通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。此方法需要人工提取特征,创建候选词典,过程繁琐且难以适用于复杂场景。基于深度模型的解决思路:深度模型实现大多使用端到端的方法,利用深度神经网络模型的强大语言表征能力以及语言建模能力,进行文本纠错,此种方法避免了人工提取特征,且对文本任务的拟合能力强。

深度模型提供的“端到端”的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射;即:端到端的学习其实就是不做其他额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。但鉴于政务领域文本纠错依赖于政务词典,且表述语句有着较强的逻辑性,端到端模型难以达到预期纠错效果。

因此,有必要提供一种基于编辑方法的文本对比学习纠错系统、方法及装置来解决上述技术问题。

发明内容

为解决上述技术问题,本发明一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,包括编码器、解码器A、解码器B和编辑算法模块。

具体述的,所编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量。

具体的,所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列。

具体的,所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。

作为更进一步的解决方案,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。

作为更进一步的解决方案,对比损失训练公式如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院成都信息技术股份有限公司;成都中科信息技术有限公司,未经中科院成都信息技术股份有限公司;成都中科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210155865.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top