[发明专利]一种基于编辑方法的文本对比学习纠错系统、方法及装置在审
申请号: | 202210155865.X | 申请日: | 2022-02-21 |
公开(公告)号: | CN114548053A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 钟勇;陈科 | 申请(专利权)人: | 中科院成都信息技术股份有限公司;成都中科信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/169;G06F40/232;G06F40/126 |
代理公司: | 成都知都云专利代理事务所(普通合伙) 51306 | 代理人: | 陈钱 |
地址: | 610000 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编辑 方法 文本 对比 学习 纠错 系统 装置 | ||
1.一种基于编辑方法的文本对比学习纠错系统,用于对源文本进行文本纠错,其特征在于,包括编码器、解码器A、解码器B和编辑算法模块;
所述编码器用于将源文本转化为表示向量,所述编码器通过正文本样例与负文本样例训练得到,并利用对比损失公式,拉近相似正文本样例表示向量之间的距离,扩大非相似样本之间的表示向量距离,并将表示向量对齐,得到表示向量;
所述解码器A用于对表示向量进行操作预测t与结束位置预测p,得到文本操作序列和文本结束位置序列;所述解码器B用于对表示向量进行替换内容预测r,得到文本替换内容序列;
所述编辑算法模块根据解码器A与解码器B得到的文本操作序列、文本结束位置序列和文本替换内容序列进行文本编辑合成,通过文本操作序列选择对应执行操作,通过文本结束位置序列选择对应执行操作位置,通过文本替换内容序列在文本对应位置按照对应操作填充替换内容,得到目标文本,完成文本纠错。
2.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统,其特征在于,所述编码器、解码器A和解码器B均通过Transformer模块进行设置,并通过已标注训练样本进行训练得到预测模型。
3.根据权利要求1所述的一种基于编辑方法的文本对比学习纠错系统,其特征在于,对比损失训练公式如下:
其中,N表示训练样本数,(hi,h’i)表示正样本句子对;(hi,hj)表示负样本句子对;(hi,h’j)表示扩展的负样本句子对;i与j表示同批不同类的数据。
4.一种基于编辑方法的文本对比学习纠错方法,运用于如权利要求1至权利要求3任意一项所述的一种基于编辑方法的文本对比学习纠错系统中,其特征在于,将源文本的文本纠错任务分割为操作预测t、结束位置预测p和替换内容预测r,并通过对应解码器进行预测;所述操作预测t和结束位置预测p通过解码器A进行,所述替换内容预测r通过解码器B进行。
5.根据权利要求4所述的一种基于编辑方法的文本对比学习纠错方法,其特征在于,通过以下步骤实现对原文本的对比学习纠错:
S1获取待纠错的源文本;
S2将源文本送入编码器进行编码,得到表示向量;
S3将表示向量送入解码器A并进行操作预测t,得到文本操作序列;
S4将文本操作序列和表示向量共同送入解码器A并进行结束位置预测p,得到文本结束位置序列;
S5将表示向量、文本操作序列和文本结束位置序列送入解码器B并进行替换内容预测r,得到文本替换内容序列;
S6将表示向量、文本操作序列、文本结束位置序列和文本替换内容序列送入编辑算法模块并进行文本算法编辑,得到目标文本;
S7根据所得目标文本,完成最终的文本纠错与替换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科院成都信息技术股份有限公司;成都中科信息技术有限公司,未经中科院成都信息技术股份有限公司;成都中科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210155865.X/1.html,转载请声明来源钻瓜专利网。