[发明专利]从电子文档中的表格结构提取语义关系在审
申请号: | 201310495714.X | 申请日: | 2013-10-21 |
公开(公告)号: | CN103793372A | 公开(公告)日: | 2014-05-14 |
发明(设计)人: | S·N·格拉德;M·G·梅格里安 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;陈颖 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 文档 中的 表格 结构 提取 语义 关系 | ||
1.一种在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法,所述方法包括:
由所述数据处理系统确定所述表格数据结构内的单元配置;
由所述数据处理系统基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
由所述数据处理系统将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。
2.根据权利要求1所述的方法,其中将与所述超单元对应的表格数据转换成语义关系语句包括:对于每个超单元,
由所述数据处理系统将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。
3.根据权利要求2所述的方法,其中基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句包括将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。
4.根据权利要求1所述的方法,还包括:
使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。
5.根据权利要求4所述的方法,其中所述分析操作包括对所述电子文档的内容执行的自然语言处理操作或者问答创建操作中的至少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。
6.根据权利要求1所述的方法,其中所述语义关系语句包括被配置用于由自然语言处理分析引擎解析的自然语言句子结构。
7.根据权利要求1所述的方法,其中所述语义关系语句包括结构化查询语言(SQL)语句、资源描述框架(RDF)语义三元组或者N3语义三元组中的至少一项。
8.根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括取回与所述表格数据结构关联的元数据,所述元数据标识所述表格数据结构的各部分的大小和所述表格数据结构的各部分的配置。
9.根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括对所述表格数据结构的所述内容执行自动分析以标识所述表格数据结构的、与所述表格数据结构的头标、脚注和超单元对应的部分。
10.一种装置,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令在由所述处理器执行时使所述处理器:
确定表格数据结构内的单元配置;
基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。
11.根据权利要求10所述的装置,其中所述指令使所述处理器至少通过以下操作将与所述超单元对应的表格数据转换成语义关系语句:对于每个超单元,
将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。
12.根据权利要求11所述的方法,其中所述指令使所述处理器至少通过以下操作来基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句:将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。
13.根据权利要求10所述的装置,其中所述指令还使所述处理器:
使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310495714.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分类筛选的方法和装置
- 下一篇:处理数据冲突的方法及系统