[发明专利]一种文本数据中错误字符的检测方法、装置和设备有效
申请号: | 201810067388.5 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108280051B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 刘英博;王建民;张育萌 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/24 | 分类号: | G06F17/24 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 错误字符 目标字符 文本数据 待检测文本 形状相似 检测 字符集合 文本 有效检测 预先创建 字符库 纠错 预设 录入 统计 | ||
本发明提供了一种文本数据中错误字符的检测方法、装置和设备,该方法包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本发明通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,提高了错误字符检测效率。
技术领域
本发明涉及文本识别技术领域,具体涉及一种文本数据中错误字符的检测方法、装置和设备。
背景技术
当今社会的信息化水平日新月异,我们的每次社会行为基本上都会转化为数据,并保存在数据库中。除了由计算机自动生成的日志数据、行为数据等数据之外,目前还有大量数据无法自动生成,仍需人工来录入到系统中,文本数据就是其中的典型代表。将文字录入到计算机中,是大部分人的生活和工作中都会涉及的行为,比如:维修人员会在每次服务之后填写维修检测日志;财务人员要记录每笔开支的去向和内容等。
这类无法自动生成的数据为文本处理带来了一些挑战和问题。工作者在进行录入时,难免会出现纰漏,输入错误的字符,这些错别字常常是正确字符的同音字或形似字。其中,形似字是错别字的主要来源之一;计算机的字符库中有很多形状相似的字,它们的含义是完全相同的,但表示它们的编码却完全不同,例如:阿拉伯数字和英文字母有半角和全角两种形式;除了含义相同编码不同的字符对之外,还有一些含义不同形状相似的字符对,例如:字符库中有很多与阿拉伯数字“1”相似的其他字符,其中包括汉字“丨”和英文字母“I”。输入者在录入信息时,很可能会在没有明确规范时,自行选择半角或全角中某一种形式,或者误输入形状相似的字符。多份来源不同的文本数据汇集在一起之后,难免会出现多处错别字或格式不一致的情况。
除了输入者的误输入之外,地区和文化的差异也会造成字符格式上的不统一;比如日本人惯用全角的数字和英文字母,而中国人惯用半角的数字和英文字母,这二者记录的文本数据聚合起来之后,就会出现半角字符和全角字符混杂在一起,大量的格式不统一而造成的文档混乱的情况。
因此,错别字带来的歧义对文本数据的整理和统计造成了极大的困难。现有技术中,通常需要人工对大量日志或文本数据进行检查,来统一格式或纠正歧义字;但这样枯燥的工作是对人力资源的极大浪费,且效率较低。
发明内容
针对现有技术中存在的上述缺陷,本发明提供一种文本数据中错误字符的检测方法、装置和设备。
本发明的一方面提供一种文本数据中错误字符的检测方法,包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,所述相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。
其中,所述确认待检测文本数据中的相似字符为错误字符的步骤后还包括:获取错误字符所属的相似字符集合中各字符在待检测文本数据中的出现次数,并将错误字符改正为出现次数最多的字符。
其中,所述根据预先创建的易错字符库,获取包含目标字符的相似字符集合的步骤前还包括:获取字符集,对字符集中各字符对应的图像数据进行尺寸归一化处理;并根据各字符对应的图像数据,获取各字符之间的形状相似度;根据字符之间的形状相似度,对字符进行聚类,获取相似字符集合;其中,所述相似字符集合中的任意两个字符之间的形状相似度大于预设相似度,所述易错字符库包含至少一个相似字符集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810067388.5/2.html,转载请声明来源钻瓜专利网。