[发明专利]文本纠错方法和装置有效
申请号: | 201911029376.4 | 申请日: | 2019-10-28 |
公开(公告)号: | CN112733529B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 刘恒友;李辰;包祖贻;徐光伟;李林琳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F16/33 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 | ||
1.一种文本纠错方法,其特征在于,包括:
获取所述文本所包含的多个元素;
确定所述多个元素中至少一个元素的特征数据;
至少以所述多个元素及所述特征数据为特征,生成所述文本的特征集;
基于所述特征集,利用错误预测模型,对所述文本的错误情况进行预测;以及
基于预测结果,对所述文本进行纠错,
所述预测结果是二进制序列,所述二进制序列的各个位分别表示所述文本中与其相对应的字符的正确性。
2.根据权利要求1所述的方法,其特征在于,
所述元素包括字符和/或词语和/或二元分词。
3.根据权利要求2所述的方法,其特征在于,所述特征数据包括:
字符和/或词语的词性特征;以及/或者
元素间关联特征。
4.根据权利要求3所述的方法,其特征在于,所述元素间关联特征包括下述至少一项:
字符在词语中的位置特征;
元素间依存关系特征;
元素间相关性特征。
5.根据权利要求4所述的方法,其特征在于,所述特征数据还包括:
元素的两个或更多个特征的组合特征。
6.根据权利要求5所述的方法,其特征在于,所述组合特征包括下述至少一项:
所述元素在词语中的位置特征与所述词语的词性特征的组合特征;
所述元素在词语和/或二元分词中的位置特征与所述词语和/或二元分词的组合特征;
所述元素的词性特征与所述元素间相关性特征的组合特征。
7.根据权利要求4所述的方法,其特征在于,获取所述文本所包含的多个元素的步骤包括:
对所述文本进行分词处理以得到所述元素,
并且/或者
确定所述多个元素中至少一个元素的特征数据的步骤包括下述至少一项:
对所述文本进行词性标注处理以得到所述字符和/或词语的词性特征;
对所述文本进行依存句法分析处理以得到所述元素间依存关系特征;
从特征数据库中获取元素间相关性特征。
8.根据权利要求1所述的方法,其特征在于,生成所述文本的特征集的步骤包括:
从特征数据库获取各个所述特征对应的特征标识,所述特征数据库是通过对文本数据集进行处理得到的,所述特征数据库中关联地存储有基于所述文本数据集得到的多个特征及其分别对应的特征标识,所述多个特征包括从所述文本数据集中提取的多个元素以及元素的特征数据;以及
基于所述特征标识,生成所述特征集。
9.根据权利要求8所述的方法,其特征在于,所述文本数据集包括下述的至少一项:
通用领域数据集;
垂直领域数据集;
网络百科数据集。
10.根据权利要求8所述的方法,其特征在于,所述特征数据库还关联地存储有所述多个特征分别对应的特征向量,基于所述特征标识生成所述特征集的步骤还包括:
基于特征标识获取所述多个特征分别对应的特征向量;
组合所获取的特征向量得到所述特征集。
11.根据权利要求10所述的方法,其特征在于,所述特征向量是通过对所述文本数据集中提取的所述多个元素和元素的特征数据进行特征训练而得到的。
12.根据权利要求1所述的方法,其特征在于,对所述文本的错误情况进行预测的步骤包括:
确定所述多个特征分别对应的特征标识;
将所述特征标识作为所述错误预测模型的输入,以对所述文本进行预测。
13.根据权利要求12所述的方法,其特征在于,
从特征数据库中获取所述多个特征分别对应的特征标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911029376.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用含氟高分子制备氮掺杂碳材料的方法
- 下一篇:无线网络系统