[发明专利]一种智能化文本纠错模型训练方法在审
申请号: | 202110371422.X | 申请日: | 2021-04-07 |
公开(公告)号: | CN112989806A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 黄志春;张定国;伍宇文;李韧;康文静 | 申请(专利权)人: | 广州伟宏智能科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/216;G06N3/04;G06N3/08;G06N20/20 |
代理公司: | 佛山市神机营专利代理事务所(普通合伙) 44765 | 代理人: | 许尤庆 |
地址: | 510000 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能化 文本 纠错 模型 训练 方法 | ||
1.一种智能化文本纠错模型训练方法,其特征在于,包括以下步骤:
S1、获取待纠错文本;
S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;
S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;
S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;
S5、候选筛选,得到最优的纠正方案。
2.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。
3.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。
4.根据权利要求3所述的一种智能化文本纠错模型训练方法,其特征在于,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。
5.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。
6.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采用逻辑回归模型算法,过滤部分明显错误的答案,所述二级精排序采用Xgboost模型对候选进行打分,分数超过设定阈值且是Top1的作为最终候选。
7.根据权利要求6所述的一种智能化文本纠错模型训练方法,其特征在于,所述一级粗排序中逻辑回归抽取的特征主要包括频率比值、编辑距离、拼音jaccard距离、Ngram统计语言模型分数差值。
8.根据权利要求6所述的一种智能化文本纠错模型训练方法,其特征在于,所述二级精排序中的候选特征分为局部特征和全局特征,所述局部特征主要包括分词变化、频次变化、形音变化、PMI互信息变化、Ngram语言模型分数变化特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州伟宏智能科技有限公司,未经广州伟宏智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110371422.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:机器人用谐波减速器性能测试平台
- 下一篇:冰箱