[发明专利]文档结构的估计有效
申请号: | 201610692617.3 | 申请日: | 2016-08-19 |
公开(公告)号: | CN106469143B | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 初鸟阳一 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11038 中国国际贸易促进委员会专利商标事务所 | 代理人: | 边海梅<国际申请>=<国际公布>=<进入 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及文档结构的估计。更具体而言,一种用于估计文档的文档结构的系统和方法包括:从文档中提取描述文档结构的一个或更多个候选要素,和将一个或更多个候选要素分组为组,和构建组的一个或更多个树。每个树具有选自组中的候选要素的根节点和叶节点。该方法还包括:基于与从根节点到叶节点的路径对应的文本是否容纳于词语的单个组中,在留下到该叶节点的路径的同时,修剪一个或更多个树。 | ||
搜索关键词: | 文档 结构 估计 | ||
【主权项】:
1.一种用于估计文档的文档结构的方法,包括:/n从非结构化文档中提取描述逻辑文档结构的一个或更多个候选要素;/n将一个或更多个候选要素分组为组;/n为该组构建代表该非结构化文档的逻辑文档结构的一个或更多个树,每个树具有选自该组中的候选要素的根节点和叶节点;和/n基于与从根节点到叶节点的路径对应的该非结构化文档中的文本是否容纳于单个词语组中,在留下所述从根节点到叶节点的路径的同时,修剪所述一个或更多个树。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610692617.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种对大纲项目进行排版的方法和装置
- 下一篇:文本相似度计算方法及装置