[发明专利]一种智能化文本纠错模型训练方法在审

专利信息
申请号: 202110371422.X 申请日: 2021-04-07
公开(公告)号: CN112989806A 公开(公告)日: 2021-06-18
发明(设计)人: 黄志春;张定国;伍宇文;李韧;康文静 申请(专利权)人: 广州伟宏智能科技有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06F40/242;G06F40/216;G06N3/04;G06N3/08;G06N20/20
代理公司: 佛山市神机营专利代理事务所(普通合伙) 44765 代理人: 许尤庆
地址: 510000 广东省广州市天河区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能化 文本 纠错 模型 训练 方法
【权利要求书】:

1.一种智能化文本纠错模型训练方法,其特征在于,包括以下步骤:

S1、获取待纠错文本;

S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;

S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;

S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;

S5、候选筛选,得到最优的纠正方案。

2.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。

3.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。

4.根据权利要求3所述的一种智能化文本纠错模型训练方法,其特征在于,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。

5.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。

6.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采用逻辑回归模型算法,过滤部分明显错误的答案,所述二级精排序采用Xgboost模型对候选进行打分,分数超过设定阈值且是Top1的作为最终候选。

7.根据权利要求6所述的一种智能化文本纠错模型训练方法,其特征在于,所述一级粗排序中逻辑回归抽取的特征主要包括频率比值、编辑距离、拼音jaccard距离、Ngram统计语言模型分数差值。

8.根据权利要求6所述的一种智能化文本纠错模型训练方法,其特征在于,所述二级精排序中的候选特征分为局部特征和全局特征,所述局部特征主要包括分词变化、频次变化、形音变化、PMI互信息变化、Ngram语言模型分数变化特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州伟宏智能科技有限公司,未经广州伟宏智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110371422.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top