[发明专利]结构化文档处理装置和方法有效
申请号: | 200610164702.9 | 申请日: | 2006-11-14 |
公开(公告)号: | CN1991837A | 公开(公告)日: | 2007-07-04 |
发明(设计)人: | 铃村丰太郎;立堀道昭;浦本直彦 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 于静;李峥 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的目标是提供一种能够使用诸如XML解析器之类的解析器来快速解析数字化的结构化文档的句法解析装置和方法。与实例文档和概要信息有关的统计信息被用于合并允许对结构化文档分段的多个状态转变,由此生成优化的自动机。在合并状态转变中,以ID列表的形式保存连续匹配状态转变,所述ID列表然后用于对连续状态转变数进行计数。此外,统计地获得包括嵌套元素的重复元素出现次数的模式。通过使用统计方法来解决XML中空白的变化。概要信息用于预先建立自动机,由此降低所述句法解析装置的初始开销。 | ||
搜索关键词: | 结构 文档 处理 装置 方法 | ||
【主权项】:
1.一种执行电子数据形式的结构化文档的句法解析的结构化文档处理装置,所述装置包括:自动机生成单元,其生成多个状态的状态转变序列,所述多个状态允许将结构化文档分段成多个节点;实例文档分析单元,其通过使用与是所述结构化文档的实体的实例文档有关的统计信息,将状态转变合并到由所述自动机生成单元生成的所述状态转变序列中,并且通过使用所述统计信息来统计地获得所述状态转变中重复元素出现次数的模式;概要信息分析单元,其通过使用定义了与所述结构化文档有关的信息的结构和格式的概要信息,将所述状态转变合并到由所述自动机生成单元生成的所述状态转变序列中;以及自动机优化单元,其相互地优化由所述实例文档分析单元和所述概要信息分析单元所合并的自动机。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610164702.9/,转载请声明来源钻瓜专利网。
- 上一篇:改进的售票方案
- 下一篇:一种单组分硅烷改性聚醚密封胶及其制备方法