[发明专利]形成用于生成文档模板的合并树的方法以及装置有效
申请号: | 201010260747.2 | 申请日: | 2010-08-17 |
公开(公告)号: | CN102375847A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 王新文;夏迎炬;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;许向华 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 形成 用于 生成 文档 模板 合并 方法 以及 装置 | ||
1.一种形成用于生成文档模板的合并树的方法,包括以下步骤:
相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;
合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及
后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
2.按照权利要求1所述的方法,其中相似度计算步骤和合并步骤包括:
把多棵树中的第一树与多棵树中的第二树进行比较,以使用自第一和第二树提取的相似子树和该些相似子树的公共根节点来形成第一合并树;以及
把第n树与第(n-2)合并树进行比较,以使用自第n树和第(n-2)合并树提取的相似子树和该些相似子树的公共根节点来形成第(n-1)合并树,其中n是大于等于3的整数。
3.按照权利要求1或2所述的方法,其中相似度计算步骤包括:从被比的两颗树中各自顺序选取根节点相同的一颗子树作为用于比较的两颗子树,形成从两颗子树中每颗子树的所有叶节点至该颗子树的根节点的路径,分别确定两颗子树中叶节点的名称相同的所述路径中相同路径的数目,以及根据以下公式计算两颗子树的相似度A:
其中N表示两颗子树中路径互不相同的叶节点的数目之和,PNi表示第i个叶节点的父节点的数目,max PNi表示针对两颗子树的所有叶节点的父节点的数目的最大值,i=1,...N,以及LNi1和LNi2分别表示两颗子树中针对第i个叶节点的路径中相同路径的数目。
4.按照权利要求1-3中任一项所述的形成方法,其中后处理步骤包括对于其根节点具有落入等于或大于预定第二阈值且等于或小于预定第三阈值的阈值范围内的与所述相似度有关的权值的所述初始合并树的子树进行处理,以便消除误判和/或错误累加。
5.按照权利要求1-4中任一项所述的形成方法,还包括对解析成的多棵树进行预处理的步骤,以去除对于形成合并树没有作用的节点。
6.按照权利要求1-5中任一项所述的形成方法,还包括后处理步骤之后的归纳和提取步骤,用于根据合并树的节点的特征,对合并树进行归纳和提取处理,以选取需要的信息路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010260747.2/1.html,转载请声明来源钻瓜专利网。