[发明专利]文字校对方法和装置有效
申请号: | 201010266100.0 | 申请日: | 2010-08-27 |
公开(公告)号: | CN102375807A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 刘正珍;高书征 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30;G06K9/20 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 校对 方法 装置 | ||
技术领域
本发明涉及文字处理领域,尤其涉及一种对校对文字质量的控制方法和装置。
背景技术
一个完整的文档录入系统分为以下部分:纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存,其中校对是保证录入文档内容准确性的重要一环。现有校对主要借助机器进行,主要方式有两种:横向校对和纵向校对。
横向校对:直接将识别结果文本与图像进行对比,系统自动调用文本所对应的图像进行比对,同时,以颜色标记识别可信度不高的文字。
纵向校对:将文档中识别结果为同一个字的文字图像集中显示,并以突出颜色标出可疑字,发现错误并修改。
在实现上述文字校对的过程中,现有技术中至少存在如下问题:无论是横向校对还是纵向校对,校对后都会存在一些残留的没有校对出的错误,比如某字多处识别错误,只修改了一部分,对于这些残留错误需要逐字核查,如果做大量这样的工作的话,容易引起校对人员视觉疲劳,造成校对的准确率降低,而且需要消耗大量的时间和精力。
发明内容
本发明的实施例提供一种文字校对方法和装置,能够保证校对的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种文字校对方法,包括:
收集对文字进行校对的修改信息;
根据所述修改信息建立易错词表;
根据易错词表查找文字中的可疑字并进行提示。
一种文字校对装置,包括:
修改统计模块:用于收集对文字进行校对的修改信息;
易错词表建立模块:用于根据所述修改信息建立易错词表;
易错词表报警模块:用于根据易错词表查找文字中的可疑字并进行报警。
本发明实施例提供的文字校对方法和装置,利用文字校对的修改信息建立易错词表,然后去全文中搜索残留的可疑字并对残留可疑字报警,方便核查,相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度,在低报警率下保证了文字校对的质量。
附图说明
图1为本发明文字校对方法的一个实施例的流程图。
图2为本发明文字校对方法的另一个实施例的流程图。
图2a为易错词表结构采用哈希表结构的结构示意图。
图2b为易错词表结构采用汉字内码索引结构的结构示意图。
图2c为“比”字的形似字集合示意图。
图2d为分类图像示意图。
图2e为图像聚类中的个类示意图。
图3为本发明文字校对装置的一个实施例的结构示意图。
具体实施方式
下面结合附图对本发明实施例校对方法和装置进行详细描述。
本发明文字校对方法的一个实施例,如图1所示,包括:
S101、收集对文字进行校对的修改信息。
首先对电子化文档进行或者其它机器辅助校对,所述文档可以是中文、英文或其它语言写成,校对可以借助现有校对方式进行,比如横向校对和纵向校对。将所述校对后的文档信息与校对前的文档信息进行通篇逐字比较,得到校对过程中的修改信息,包括字符的识别候选,修改之后的字符编码,该字符在数据包的位置信息和该字符图像的位置信息等。
S102、根据所述修改信息建立易错词表。
本步骤中,根据校对文字的语种确定该语种文字表述的使用习惯,比如,校对的文档主体是以中文构成的,中文是以单字结合成词语的方式使用的,那么就先建立一个中文的语言模型,所述语言模型包括中文中不同文字组合成一个词使用的概率。将概率量化成组合得分的形式,比如可以根据常用程度将不同字组合成一个词的概率映射到0至255之间的组合得分,最生僻的词为0,最常见的词为255。
如果从修改信息中查找到一处孤立修改的字,结合语言模型,取该字与前后相邻字组合成词中得分最高的词,用目标字符(也就是修改前的字)替换更新字符(也就是修改后的字)添加到易错词表。比如,修改信息显示文档中有一处将“期间发生”错识成“期问发生”,又有修改成“间”的记录,结合语言模型可以得到“期间”的得分高于“间发”的得分,因此将“期问”和对应的可疑字“问”添加到易错词表。
S103、根据易错词表查找文字中的可疑字并进行提示。
根据易错词表对校对后的文档进行通篇查找,如果在校对后的文档中出现易错词表中的词,对该词的可疑字(曾经出现在修改信息中的字)进行标识提示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010266100.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:轮胎模具横向气孔加工设备
- 下一篇:一种单张纸自动模切机的叼纸牙排的驱动机构