[发明专利]文字校对方法和装置有效
申请号: | 201010266100.0 | 申请日: | 2010-08-27 |
公开(公告)号: | CN102375807A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 刘正珍;高书征 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30;G06K9/20 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 校对 方法 装置 | ||
1.一种文字校对方法,其特征在于,包括:
收集对文字进行校对的修改信息;
根据所述修改信息建立易错词表;
根据易错词表查找文字中的可疑字并进行提示。
2.根据权利要求1所述的方法,其特征在于,根据所述修改信息建立易错词表包括:
建立语言模型,所述语言模型包括不同文字组合成一个词使用的概率;
结合语言模型查找修改信息中用于对目标字符进行修正的更新字符与前后相邻字组合成的词中使用概率最高的词,用目标字符替换使用概率最高的词中的更新字符后将该使用概率最高的词存入易错词表,并将所述目标字符作为与该词对应的可疑字存入易错词表。
3.根据权利要求2所述的方法,其特征在于,结合语言模型查找修改信息中用于对目标字符进行修正的更新字符与前后相邻字组合成的词中使用概率最高的词时,如果连续修改两个或者两个以上字,查找更新字符与前后相邻没有修改过的字组合成的词中,使用概率最高的两个或者两个以上词,将上述词用目标字符替换更新字符,连同所述目标字符作为与该词对应的可疑字存入易错词表。
4.根据权利要求2所述的方法,其特征在于,根据所述修改信息建立易错词表还包括:
设定常用词概率阈值;
如果存入易错词表的词使用概率超过所述常用词概率阈值,删除所述存入易错词表的词及对应的可疑字。
5.根据权利要求2所述的方法,其特征在于,易错词表结构采用哈希表结构或者汉字内码运算作为位置索引的数组结构。
6.根据权利要求2所述的方法,其特征在于,所述语言模型由已经校对过的文本或者本语言其他可靠语料构建。
7.根据权利要求1所述的方法,其特征在于,还包括:
结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像,整理成易错形似字集;
对所述易错形似字集进行图像聚类;
统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量,以及每一类易错形似字集中每种字的文字识别结果数量;
将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字,若没有修改记录则取文字识别结果最多的字作为标准字;
对每一类易错形似字集中当前结果与标准字不同的易错形似字进行提示。
8.根据权利要求7所述的方法,其特征在于,结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像,整理成易错形似字集包括:
对文本图像中每个字符图像进行OCR识别;
如果某个字符图像的OCR识别结果的候选字中出现修改信息中目标字符,将该字符图像作为其对应的修改后字的易错形似字图像保存到其对应的易错形似字集中。
9.根据权利要求7所述的方法,其特征在于,对所述易错形似字图像集进行图像聚类包括:
提取易错形似字集中每个字符图像多维的方向线素特征;
根据每个字符图像多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
10.根据权利要求9所述的方法,其特征在于,对所述易错形似字集进行图像聚类还包括:
聚类前统计易错形似字集中文字内码类别,得到实际类别数,将图像聚类的最大类别数设定为实际类别数的一倍以上。
11.一种文字校对装置,其特征在于,包括:
修改统计模块:用于收集对文字进行校对的修改信息;
易错词表建立模块:用于根据所述修改信息建立易错词表;
易错词表报警模块:用于根据易错词表查找文字中的可疑字并进行提示。
12.根据权利要求11所述的装置,其特征在于,还包括:
易错形似字集建立模块:用于结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像,整理成易错形似字集;
图像聚类模块:用于对所述易错形似字集进行图像聚类;
统计模块:用于统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量,以及每一类易错形似字集中每种字的文字识别结果数量;
标准字选取模块:用于将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字,若没有修改记录则取文字识别结果最多的字作为标准字;
图像聚类报警模块:用于对每一类中当前结果与标准字不同的易错形似字进行报警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010266100.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:轮胎模具横向气孔加工设备
- 下一篇:一种单张纸自动模切机的叼纸牙排的驱动机构