[发明专利]生成文本纠错模型训练语料的方法、装置、设备及介质有效

专利信息
申请号: 202110776500.4 申请日: 2021-07-09
公开(公告)号: CN113343674B 公开(公告)日: 2022-04-01
发明(设计)人: 张阳;蒋红宇;安晓江 申请(专利权)人: 北京海泰方圆科技股份有限公司
主分类号: G06F40/253 分类号: G06F40/253;G06K9/62
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 王媛媛
地址: 100094 北京市海淀区东北旺西路*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成 文本 纠错 模型 训练 语料 方法 装置 设备 介质
【说明书】:

发明公开了一种生成文本纠错模型训练语料的方法、装置、设备及介质,用以提高文本纠错模型的训练语料的质量。由于本发明实施例可以针对预设的每个被掩码字词的属性信息,根据初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从初始语料中,选取该属性信息及该掩码比例的被掩码字词,并对选取的被掩码字词进行掩码,以生成训练语料。相比现有技术,从初始语料中随机选取被掩码字词的方式而言,本发明实施例中选取的被掩码字词为初始语料中相对比较容易出错或比较重要的字词等,所以本发明实施例的训练语料的质量较高,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。

技术领域

本发明涉及文本纠错技术领域,尤其涉及一种生成文本纠错模型训练语料的方法、装置、设备及介质。

背景技术

文本纠错是计算机自然语言处理中的一个重要研究方向,通过文本纠错可以对文本中由于人为等因素产生的错误(如错别字、错误语序等)进行纠正。现有在进行文本纠错时可以基于词典、专家规则或语言模型等来完成。其中,语言模型因为其含有语义特征,用语言模型进行文本纠错(为方便描述,将用于文本纠错的语言模型称为文本纠错模型)时,文本纠错的准确度及召回率相对较高。

然而,文本纠错模型的质量和稳定性是文本纠错的天花板。文本纠错的准确性和召回率依赖于文本纠错模型的训练方式,其中,用于训练文本纠错模型的训练语料的质量,将影响文本纠错模型进行文本纠错的准确性和召回率。

现有在生成文本纠错模型的训练语料时,通常从初始语料中随机选取一定比例的字词,对初始语料中该随机选取的字词进行掩码(为方便描述,称为随机掩码),以生成训练语料。然而,在实际应用过程中,基于随机掩码生成的训练语料训练完成的文本纠错模型进行文本纠错时,文本纠错的准确性和召回率存在较大欠缺。因此,亟需一种可以提高文本纠错模型的训练语料的质量,以进一步提高文本纠错的准确性和召回率的技术方案。

发明内容

本发明实施例提供了一种生成文本纠错模型训练语料的方法、装置、设备及介质,用以提高文本纠错模型的训练语料的质量。

第一方面,本发明提供了一种生成文本纠错模型训练语料的方法,所述方法包括:

针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;

针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;

对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。

在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:

针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。

在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:

针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;

采用所述目标掩码字词,对所述第一被掩码字词进行掩码。

在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。

在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程包括:

若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海泰方圆科技股份有限公司,未经北京海泰方圆科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110776500.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top