[发明专利]一种基于编辑方法的文本对比学习纠错系统、方法及装置在审
申请号: | 202210155865.X | 申请日: | 2022-02-21 |
公开(公告)号: | CN114548053A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 钟勇;陈科 | 申请(专利权)人: | 中科院成都信息技术股份有限公司;成都中科信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/169;G06F40/232;G06F40/126 |
代理公司: | 成都知都云专利代理事务所(普通合伙) 51306 | 代理人: | 陈钱 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编辑 方法 文本 对比 学习 纠错 系统 装置 | ||
本发明公开了一种基于编辑方法的文本对比学习纠错系统、方法及装置,涉及文本纠错技术领域。本发明首先对输入的源文本送入编码器和解码器A,得到源文本表示向量,通过表示向量预测出对每个字符需要进行的操作,利用预测出的操作及文本表示向量预测出操作在文本的结束位置,接着将文本表示向量、对文本的操作以及操作结束位置输入解码器B预测出替换内容。最后通过编辑算法,对源文本进行编辑操作,得到目标文本。相较于端到端纠错模型,本实施例通过引入对比学习模块,增加了编码模块的表示能力;分步骤操作,提高了模型可解释性以及可控性;通过设置各解码器预测内容,可按需操作,适用于不同场景任务。
技术领域
本发明涉及文本纠错技术领域,尤其涉及一种基于编辑方法的文本对比学习纠错系统、方法及装置。
背景技术
随着科技的进步与时代的发展,越来越多的智能技术运用在我们日常生活中,帮助我们更好的处理工作与生活中的各种任务。在文字办公时尤其是政务领域对文本字词使用正确与否及其敏感,故需要我们通过技术的手段对源文本进行文本纠错。
文本纠错主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面体现自然语言处理的技术水平,且具有广阔的应用前景。
国内外已经有诸如飞鹰智能文本校对系统、pycorector、NOUNPLUS、Ginger等文本纠错工具投入使用,这些系统根据使用者目的找出文本中的拼写错误,语法错误。中文文本纠错有两种解决思路,基于规则和深度模型。基于规则的解决思路:通过切词,从字粒度和词粒度两方面检测,形成疑似错误位置候选集,遍历疑似错误位置,并使用音似、形似词典替换错误位置的词,通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。此方法需要人工提取特征,创建候选词典,过程繁琐且难以适用于复杂场景。基于深度模型的解决思路:深度模型实现大多使用端到端的方法,利用深度神经网络模型的强大语言表征能力以及语言建模能力,进行文本纠错,此种方法避免了人工提取特征,且对文本任务的拟合能力强。
深度模型提供的“端到端”的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射;即:端到端的学习其实就是不做其他额外处理,从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。但鉴于政务领域文本纠错依赖于政务词典,且表述语句有着较强的逻辑性,端到端模型难以达到预期纠错效果。
因此,有必要提供一种基于编辑方法的文本对比学习纠错系统、方法及装置来解决上述技术问题。
发明内容
为解决上述技术问题,本发明一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,包括编码器、解码器A、解码器B和编辑算法模块。
具体述的,所编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量。
具体的,所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列。
具体的,所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
作为更进一步的解决方案,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
作为更进一步的解决方案,对比损失训练公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院成都信息技术股份有限公司;成都中科信息技术有限公司,未经中科院成都信息技术股份有限公司;成都中科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210155865.X/2.html,转载请声明来源钻瓜专利网。