[发明专利]文本纠错方法和装置在审
申请号: | 202010646254.6 | 申请日: | 2020-07-07 |
公开(公告)号: | CN113919326A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 包祖贻;李辰;王睿 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06V30/148;G06N3/04;G06N3/08 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 | ||
公开了一种文本纠错方法和装置。对文本进行字符切分,得到多个原字符。为多个原字符中的每一个汉字生成语义候选替换字;对语义候选替换字进行排序解码,生成纠错结果。例如,针对至少一个原字符,可以使用语言模型,基于文本中的上下文分别获得一个或多个候选替换字符以及原字符及其候选替换字符的条件概率。结合上下文,基于条件概率,针对至少一个原字符中的每一个,从原字符及其候选替换字符中确定中选字符,从而生成纠错结果文本。由此,本公开的文本纠错方案对于非相似发音、非相似字形的拼写错误具有良好的覆盖度,可以有效提高纠错效率和性能。
技术领域
本公开涉及文字处理,特别涉及文本纠错方法和装置。
背景技术
人们在使用各种输入工具输入文本的时候,会出现拼写、形近、音近等方面的输入错误。
一方面,拼写错误会使得文本更容易被误解、会影响人们文字交流的效率。另一方面,在很多严谨的文书场景中,比如司法、合同等,对拼写错误的容忍度非常低。而如果采用人工来对所输入文本进行校对则非常耗时耗力。这就使得自动对文本进行拼写检查和纠错的需求日益增加。
拼写纠错是一种自动对文本中拼写错误进行纠正,产生正确文本的技术。
像英文这样的西欧语言上的拼写纠错系统都较为成熟,它们主要依赖于词粒度的检查和纠正。
而中文与英文等西欧语言有非常大的不同。
首先,中文汉字数量非常多,常用汉字就有超过3000个。这使得中文纠错系统的搜索空间远大于英文。
再者,中文词汇的长度一般都较短,如果出现拼写错误往往对于词语及上下文的语义有较大的影响。
面对这样的问题,传统中文拼写纠错系统大多依靠相似发音和相似字形的混淆集(音形混淆集),构建具有相似拼音和/或相似字形的字词之间的关系,把搜索空间限制到与搜索对象(纠错对象/检查对象)具有相似发音和/或相似字形的字词集合,以此来减少搜索空间。这里,混淆集是指在拼写纠错中,与被纠正句子中字词相似的候选集合。
然而,对音形混淆集的依赖使得传统中文拼写纠错系统无法处理既不涉及相似发音、也不涉及相似字形的拼写错误,因而也限制了传统中文拼写纠错系统的纠错性能。
因此,仍然需要一种改进的文本纠错方案。
发明内容
本公开要解决的一个技术问题是提供一种文本纠错方案,其能够发现并纠正既不涉及相似发音、也不涉及相似字形的拼写错误。
根据本公开的第一个方面,提供了一种文本纠错方法,包括:对待纠错文本进行字符切分,得到多个原字符;为多个原字符中的每一个汉字生成语义候选替换字;对语义候选替换字进行排序解码,生成纠错结果。
可选地,为多个原字符中的每一个汉字生成语义候选替换字的步骤包括:基于待纠错文本中的上下文信息,为每一个汉字获得候选替换字。
可选地,该方法还可以包括:计算每一个汉字及其语义候选替换字的条件概率,其中,对语义候选替换字进行排序解码生成纠错结果的步骤包括:根据条件概率对每一个汉字进行语义候选替换字的排序解码,确定可替换字,从而生成纠错结果。
可选地,对待纠错文本进行字符切分的步骤包括:将待纠错文本中的汉字、标点符号切分为单个字符;以及/或者按单词切分表音文字;以及/或者按数字表达规范对数字进行切分。
可选地,在为每一个汉字生成语义候选替换字的步骤之后,还包括:基于词库,对语义候选替换字进行筛选。
可选地,基于词库对语义候选替换字进行筛选的步骤包括:如果在词库中,不存在第一语义候选替换字与相邻的语义候选替换字组成的词,则删除第一语义候选替换字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010646254.6/2.html,转载请声明来源钻瓜专利网。