[发明专利]文本纠错方法和装置在审
申请号: | 201810030108.3 | 申请日: | 2018-01-12 |
公开(公告)号: | CN110032722A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 吴晓东;邵荣防;郝晖;谢群群;陈贱辉 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 纠错文本 文本 方法和装置 候选文本 拼音序列 词典树 拼音 计算机技术领域 英文 纠错结果 中文 匹配 覆盖率 查找 | ||
1.一种文本纠错方法,其特征在于,所述方法包括:
获取待纠错文本的拼音序列;
查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集;所述混合词典树包括拼音与中文词及英文词的对应关系;
根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待纠错文本的拼音序列的步骤包括:
若所述待纠错文本由汉字组成,则将所述汉字的拼音作为待纠错文本的拼音序列;若所述待纠错文本由非汉字组成,则将所述非汉字本身作为待纠错文本的拼音序列;若所述待纠错文本由汉字和非汉字组成,则将由所述汉字的拼音和所述非汉字本身构成的整体作为待纠错文本的拼音序列;其中,所述非汉字包括:数字、英文词和/或拼音。
3.根据权利要求1所述的方法,其特征在于,所述查找混合词典树,以获取与所述待纠错文本的拼音序列匹配的候选文本集的步骤包括:
基于正向最大匹配算法和反向最大匹配算法查找混合词典树,并根据正向最大匹配结果和反向最大匹配结果确定与所述拼音序列匹配的候选文本集。
4.根据权利要求1所述的方法,其特征在于,所述根据纠错模型和所述候选文本集确定所述待纠错文本的纠错结果的步骤包括:
基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子;将多个评估因子进行融合,以得到所述候选文本的评估值;根据所述评估值确定所述待纠错文本的纠错结果。
5.根据权利要求4所述的方法,其特征在于,所述多个纠错模型包括以下至少两个:噪声信道纠错模型、编辑距离纠错模型、拼音距离纠错模型。
6.根据权利要求5所述的方法,其特征在于,在所述多个纠错模型包括噪声信道纠错模型、编辑距离纠错模型和拼音距离纠错模型的情况下,所述基于多个纠错模型分别计算所述候选文本集中每个候选文本的评估因子的步骤包括:
基于噪声信道纠错模型计算所述候选文本的噪声信道概率,并将其作为所述候选文本的第一评估因子;基于编辑距离纠错模型计算所述候选文本的编辑距离,并根据编辑距离确定所述候选文本的第二评估因子;基于拼音距离纠错模型计算所述候选文本的拼音距离,并根据拼音距离确定所述候选文本的第三评估因子。
7.根据权利要求6所述的方法,其特征在于,所述基于拼音距离纠错模型计算所述候选文本的拼音距离的步骤包括:
对待纠错文本与候选文本中的字,逐一比较其拼音组成字母是否相同以及声调是否相同;根据比较结果确定每个字的拼音距离,并将所述每个字的拼音距离的加和作为所述候选文本的拼音距离。
8.根据权利要求3所述的方法,其特征在于,所述正向最大匹配结果、所述反向最大匹配结果包括:至少一个候选文本片段;
所述方法还包括:对候选文本片段的拼音序列进行编辑操作;根据编辑后的拼音序列查找混合词典树,以获取与所述编辑后的拼音序列匹配的新增候选文本片段,并根据所述候选文本片段、新增候选文本片段构建与所述待纠错文本的拼音序列匹配的候选文本集。
9.根据权利要求8所述的方法,其特征在于,所述对候选文本片段的拼音序列进行编辑操作的步骤包括:
在所述候选文本片段包括汉字的情况下,对所述汉字的拼音进行模糊音的编辑操作;在所述候选文本片段包括英文词的情况下,对所述英文词进行插入、替换、交换和/或删除的编辑操作。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在所述获取训练样本词的拼音序列,并根据所述训练样本词的拼音序列构建混合词典树的步骤之前,对源数据进行清洗,以得到所述训练样本词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810030108.3/1.html,转载请声明来源钻瓜专利网。