[发明专利]准备显示文档用于分析的设备无效
申请号: | 200880105360.0 | 申请日: | 2008-08-06 |
公开(公告)号: | CN101796509A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | 阿德里安·李 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陆军 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 准备 显示 文档 用于 分析 设备 | ||
技术领域
本发明涉及准备显示文档用于分析的设备。
背景技术
在执行文本分析之前,从文档(如,PDF文件)中提取与所述文档相关联的文本。
理想地,在执行文本分析之前,所提取的文本具有逻辑(即,读)顺序。
一些文档格式,特别是那些用于显示目的的(如,PDF),以从左到右(LtR)的顺序显示文本,而不管与所述文本相关联的语言是否具有相关联的LtR逻辑顺序(如,英语)或从右到左(RtL)的逻辑顺序(如,阿拉伯语)。
如果文本是与RtL逻辑顺序相关联的,且以LtR顺序显示相关联的文档,则当前的文本提取工具以显示的顺序(如,LtR顺序)提取所述文本。因此,所提取的文本不适合于文本分析,这是因为,所述文本处于(反转的)LtR顺序。
发明内容
根据第一个方面,提供了准备显示文档用于分析的设备,其包括:提取器,用于从所述显示文档提取字符数据;顺序识别器,用于确定与所述字符数据的处理相关联的第一顺序、以及与所述字符数据的逻辑顺序相关联的第二顺序,并确定第一顺序与第二顺序是否不同;以及反转组件,用于响应于顺序识别器确定所述第一顺序不同于第二顺序,反转所述字符数据。
根据第二个方面,提供了准备显示文档用于分析的方法,其包括以下步骤:从所述显示文档中提取字符数据;确定与所述字符数据的处理相关联的第一顺序、以及与所述字符数据的逻辑顺序相关联的第二顺序;确定所述第一顺序是否不同于第二顺序;以及响应于确定所述第一顺序不同于第二顺序,反转所述字符数据。
根据第三个方面,提供了一种计算机程序,其包括程序代码部件,当所述程序在计算机上运行时,适应于执行上述方法的所有步骤。
附图说明
下面将描述本发明,通过仅仅示例的方法,参考如以下附图所图解的其优选的实施例:
图1是所述优选的实施例的设备的框图;
图2是显示在用于准备显示文档用于分析的过程中涉及的操作步骤的流程图;
图3是显示在用于显示确定至少一种语言的过程中涉及的操作步骤的流程图;
图4是显示在用于确定在提取出的文本中的逻辑顺序是否是反转的过程中涉及的操作步骤的流程图;以及
图5是显示在用于响应于确定提取出的文本的逻辑顺序是反转的、校正文本的过程中涉及的操作步骤的流程图。
具体实施方式
图1描述了所述优选的实施例的一种设备(100)。
在预处理步骤中,优选地,提取器(102)提取与所述文档(如,其中以PDF文件的形式存储所述文档)相关联的文本。
在此第一个示例中,存储提取出的文本。
设备(100)包括可操作用于访问一个或多个文档(130)的语言识别器(105)。
在此第一个示例中,处理顺序是从文本的开头到结尾(有效地,LtR顺序)。
优选地,处理顺序被发送到顺序识别器(110)。
所述顺序识别器(110)可操作用于访问第一存储组件(120)和反转组件(115)。
下面参考所述附图描述优选实施例的一个过程。
参考图2,在步骤200,分析所述提取出的文本,以确定至少一种语言。
步骤200包括在图3中描绘的多个步骤。在步骤300,优选地,语言识别器(105)调用分析工具(如,LanguageWare(LanguageWare是IBM公司的注册商标))。
在一个示例中,所述分析工具分析与文档相关联的提取出的文本(以处理顺序,如,LtR顺序),并将所述提取出的文本与一组辞典相比较,其中,一个辞典与一种语言相关。响应于所述比较,分析工具确定指示与提取出的文本相关联的至少一种语言的结果。优选地,如果所述分析工具不能确定一种语言,则反转提取出的文本,并将其输入到分析工具。典型地,作为响应,所述分析工具更有可能确定一种语言(如,阿拉伯语)。
优选地,所述分析工具向语言识别器(105)提供与所述结果相关联的置信度值(如,利用统计数据)。
在步骤305,所述语言识别器(105)确定所提供的置信度值是否满足可预配置的置信度阈值。如果所提供的置信度值满足所述可预配置的置信度阈值,则存储所述结果。
所述语言识别器(105)将结果传递给顺序识别器(110)。图3的过程结束,并执行图2的步骤205。
如果所提供的置信度值不满足可预配置的置信度阈值,则优选地,所述语言识别器(105)调用(步骤310)一个或多个功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880105360.0/2.html,转载请声明来源钻瓜专利网。