[发明专利]扫描至编校的可搜索文档无效
申请号: | 200880107998.8 | 申请日: | 2008-07-30 |
公开(公告)号: | CN101802840A | 公开(公告)日: | 2010-08-11 |
发明(设计)人: | J·塞加拉;G·查塔迪;C·杜达斯;G·赖希 | 申请(专利权)人: | 微差通信公司 |
主分类号: | G06K9/03 | 分类号: | G06K9/03;G06K9/20;G06F21/00 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 王岳;王忠忠 |
地址: | 美国麻*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扫描 编校 搜索 文档 | ||
本申请要求2007年7月30日提交的美国临时专利申请60/952,653的优先权,通过参考将其结合于此。
技术领域
本发明涉及图像处理,并且更具体地涉及文档的扫描和处理。
背景技术
编校(redaction)是从文档中用黑色挡住(black out)或移除机密信息以使得它们可以被共享的过程。机密信息可以包括工商企业的人或地方的名称、地址、电话号码或包括社会保障或顾客编号的其它标识信息。编校在法律或政府组织中被非常普遍地使用,但是它也在包括金融、保险和制造业的其它行业被广泛使用。编校的目的是防止敏感信息被与可能需要与内部的(closed)工商企业、政府或法律程序之外的公众共享的文档一起分发。
当文档以纸件的形式存在时,通过制造机密文档的纸件副本(paper copy)来开始编校。然后将该副本送给校对者,所述校对者的工作是基于关键字或主题的列表来标识信息的敏感区域。在简化的过程中,校对者直接编校在文档副本上的文字。在更复杂的过程中,最初的校对者将加亮(highlight)编校的候选,然后由将对编校做出最终决定的一个或多个有学识的(informed)或高级的校对者来审阅所述候选。此外,注解或注释通常需要被附着到该文档以标识为什么区域应该被编校、谁完成了最初的编校审阅、以及谁批准最后的编校,于是可以进行对该编校的追踪查询或调查。这些注解或注释通常被编码以使得当最终的文档被编校并且将注解和该文档一起送到未授权的接受者时,他们将不能够觉察出为什么要编校这些区域或者猜测关于所编校的信息的内容。编校过程中的授权参与者将能够使用所述注释或注解,并且追踪在涉及所述文档的调查中可能需要的所述编校的历史和目的。
纸件过程(paper process)中的编校使用应用于纸件文档的黑色标记,从而完全隐藏或破坏该文档中的内容或文本。因为与所使用的文档和纸件上的原始色粉或油墨相比该标记的密度上的差异,可能不能以令人满意的方式来实现信息的完全移除。为了确保区域被完全移除并且在仔细检查时不能被识别,经过编校的文档通常在分发之前再次影印。这实现了在要被隐藏的信息上的一致黑色区域,从而不可能检测出下面的文本。在编校过程中机密信息的完全破坏是关键的。纸件编校过程需要熟练的校对者并且与数字过程相比效率非常低。
在数字过程中,在数字文档被创建或者可以被编辑的各种软件应用中提供与加亮、注释以及编校文档类似的工具。为了加快该过程,校对者使用搜索工具来标识需要编校的文字。一旦在该文档中找到所述文字,就使用适当的工具来加亮、注释或编校所述文字。为了进一步加快该过程。可以将搜索功能与编校特征的自动编校或加亮相结合。如果该文档被直接编校,则然后将最终文档保存为准备分发的最终编校副本。如果已加亮或注释用于编校的文字,则然后通过电子邮件或通过文档管理过程将该文档转发到适当的人或多个人,以用于最终的编校。如在纸件过程中一样,必须在包括文档的属性或隐藏层的该文档的所有区域中实现对机密信息的绝对移除。
已认识到当数字化地进行时,信息共享更容易、更有成效并且比较便宜。因此,随着将纸件移进数字过程,对于将纸件扫描并转换成数字文档的需要日益增加。在这种意义下,通常在依靠当前可用数字工具将文档转换成适合的数字格式之后实现该编校以完成编校。当前可用的纸件至数字的工具根据转换的可编辑文档产生基于文本的PDF文件,或者根据原始的扫描图像文件产生基于TIFF的图像文件。每种方法都具有优点和缺点。
当将文档从经扫描的文件转换成用于编校的可编辑格式时,最有可能在转换过程中丢失原始文档的完整性。尽管文本是100%准确的,但是可能使该文档的格式、图形和其它元素失真、重新布置(rearrange)或一起丢失。因此,转换和编校纸件文档的这一方法不是最佳的。
为了防止损害原始文档,可以使用OCR技术来简单地识别需要被编校的经扫描图像文档上的区域,并且然后将这些改变直接应用于所述图像。这也不是最佳的过程,因为在最终TIFF图像文件中的文本仍保留为图像,不能利用其向保留的文本搜索重要信息。并且失去了这样的能力:将注解或代码附着到所编校的区域以用于进一步的调查或了解这些区域的编校如何进行、为何进行以及应用于哪儿。PDF文件格式提供适合的框架以在仍提供作为原始文档的准确表示的原始图像、要搜索的文本层以及用于注解和注释的评注字段(annotation field)的同时解决当前过程的缺点。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微差通信公司,未经微差通信公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880107998.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像检测系统的多单元加工空间同步
- 下一篇:电热保温自动旋转就餐台