[发明专利]文字校对方法和装置有效

专利信息
申请号: 201010266100.0 申请日: 2010-08-27
公开(公告)号: CN102375807A 公开(公告)日: 2012-03-14
发明(设计)人: 刘正珍;高书征 申请(专利权)人: 汉王科技股份有限公司
主分类号: G06F17/22 分类号: G06F17/22;G06F17/30;G06K9/20
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 100193 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字 校对 方法 装置
【说明书】:

技术领域

发明涉及文字处理领域,尤其涉及一种对校对文字质量的控制方法和装置。

背景技术

一个完整的文档录入系统分为以下部分:纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存,其中校对是保证录入文档内容准确性的重要一环。现有校对主要借助机器进行,主要方式有两种:横向校对和纵向校对。

横向校对:直接将识别结果文本与图像进行对比,系统自动调用文本所对应的图像进行比对,同时,以颜色标记识别可信度不高的文字。

纵向校对:将文档中识别结果为同一个字的文字图像集中显示,并以突出颜色标出可疑字,发现错误并修改。

在实现上述文字校对的过程中,现有技术中至少存在如下问题:无论是横向校对还是纵向校对,校对后都会存在一些残留的没有校对出的错误,比如某字多处识别错误,只修改了一部分,对于这些残留错误需要逐字核查,如果做大量这样的工作的话,容易引起校对人员视觉疲劳,造成校对的准确率降低,而且需要消耗大量的时间和精力。

发明内容

本发明的实施例提供一种文字校对方法和装置,能够保证校对的准确率。

为达到上述目的,本发明的实施例采用如下技术方案:

一种文字校对方法,包括:

收集对文字进行校对的修改信息;

根据所述修改信息建立易错词表;

根据易错词表查找文字中的可疑字并进行提示。

一种文字校对装置,包括:

修改统计模块:用于收集对文字进行校对的修改信息;

易错词表建立模块:用于根据所述修改信息建立易错词表;

易错词表报警模块:用于根据易错词表查找文字中的可疑字并进行报警。

本发明实施例提供的文字校对方法和装置,利用文字校对的修改信息建立易错词表,然后去全文中搜索残留的可疑字并对残留可疑字报警,方便核查,相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度,在低报警率下保证了文字校对的质量。

附图说明

图1为本发明文字校对方法的一个实施例的流程图。

图2为本发明文字校对方法的另一个实施例的流程图。

图2a为易错词表结构采用哈希表结构的结构示意图。

图2b为易错词表结构采用汉字内码索引结构的结构示意图。

图2c为“比”字的形似字集合示意图。

图2d为分类图像示意图。

图2e为图像聚类中的个类示意图。

图3为本发明文字校对装置的一个实施例的结构示意图。

具体实施方式

下面结合附图对本发明实施例校对方法和装置进行详细描述。

本发明文字校对方法的一个实施例,如图1所示,包括:

S101、收集对文字进行校对的修改信息。

首先对电子化文档进行或者其它机器辅助校对,所述文档可以是中文、英文或其它语言写成,校对可以借助现有校对方式进行,比如横向校对和纵向校对。将所述校对后的文档信息与校对前的文档信息进行通篇逐字比较,得到校对过程中的修改信息,包括字符的识别候选,修改之后的字符编码,该字符在数据包的位置信息和该字符图像的位置信息等。

S102、根据所述修改信息建立易错词表。

本步骤中,根据校对文字的语种确定该语种文字表述的使用习惯,比如,校对的文档主体是以中文构成的,中文是以单字结合成词语的方式使用的,那么就先建立一个中文的语言模型,所述语言模型包括中文中不同文字组合成一个词使用的概率。将概率量化成组合得分的形式,比如可以根据常用程度将不同字组合成一个词的概率映射到0至255之间的组合得分,最生僻的词为0,最常见的词为255。

如果从修改信息中查找到一处孤立修改的字,结合语言模型,取该字与前后相邻字组合成词中得分最高的词,用目标字符(也就是修改前的字)替换更新字符(也就是修改后的字)添加到易错词表。比如,修改信息显示文档中有一处将“期间发生”错识成“期问发生”,又有修改成“间”的记录,结合语言模型可以得到“期间”的得分高于“间发”的得分,因此将“期问”和对应的可疑字“问”添加到易错词表。

S103、根据易错词表查找文字中的可疑字并进行提示。

根据易错词表对校对后的文档进行通篇查找,如果在校对后的文档中出现易错词表中的词,对该词的可疑字(曾经出现在修改信息中的字)进行标识提示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010266100.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top