[发明专利]对准文档的字段的注解无效
申请号: | 201180075990.X | 申请日: | 2011-10-27 |
公开(公告)号: | CN103999079A | 公开(公告)日: | 2014-08-20 |
发明(设计)人: | S.戈兰;O.巴科尔;R.伯格曼;I.科亨;G.诺伊 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/00 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张凌苗;胡莉莉 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对准 文档 字段 注解 | ||
1. 一种对准文档的字段的注解的方法,所述方法包括:
访问包括关于与针对文档类型的文档的训练群集相关联的多个字段中的每个的特征的第一测量信息的训练信息,其中以第一名称对与第一字段类型相关联的第一训练群集进行注解,并且以第二名称对与第二字段类型相关联的第二训练群集进行注解;
基于训练信息生成电子分类模型;
访问针对与新文档的新群集相关联的字段的特征的第二测量信息;以及
基于第二测量信息使用分类模型由计算机系统执行对新群集中的每个进行自动地注解,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
2. 如权利要求1所述的方法,其中所述方法进一步包括:
基于在与新文档相关联的字段之间的相似性测量生成新群集。
3. 如权利要求2所述的方法,其中生成新群集进一步包括:
基于表示包括针对与新文档相关联的字段中的每个的子树的新文档的分层树结构生成新群集。
4. 如权利要求2所述的方法,其中新群集的生成进一步包括:
基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。
5. 如权利要求1所述的方法,其中所述方法进一步包括:
访问针对与附加的新文档的附加新群集相关联的字段的特征的第三测量信息;以及
基于第三测量信息使用分类模型由计算机系统执行对附加新群集中的每个进行自动地注解,其中以第一名称对具有第一字段类型的字段的第一附加新群集进行注解,并且以第二名称对具有第二字段类型的字段的第二附加新群集进行注解。
6. 一种用于对准文档的字段的注解的系统,所述系统包括:
计算机处理器;
字段特征测量部件,其被配置用于访问群集并且被配置用于生成关于与群集相关联的多个字段中的每个的特征的测量信息,其中每个群集与同文档类型的文档相关联的字段的不同类型相关联;
群集分类部件,其被基于训练信息生成的分类模型配置,其中训练信息包括关于与针对文档类型的训练文档的注解的训练群集相关联的多个字段中的每个的特征的第一测量信息,其中以第一名称对第一注解的训练群集进行注解,因为第一注解的训练群集的字段与第一字段类型相关联,并且以第二名称对第二注解的训练群集进行注解,因为第二注解的训练群集的字段与第二字段类型相关联;以及
群集分类部件,其被配置用于访问针对与文档类型的新文档的第一与第二新群集相关联的字段的特征的第二测量信息,并且被配置用于基于第二测量信息使用分类模型自动地注解新群集中的每个,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。
7. 如权利要求6所述的系统,其中系统进一步包括字段到群集分配部件,其被配置用于基于在字段之间的相似性测量生成与文档相关联的群集。
8. 如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于在针对与新文档相关联的字段中的每个的子树之间的相似性测量生成新群集,其中子树与表示新文档的分层树结构相关联。
9. 如权利要求8所述的系统,其中相似性测量是在子树中的两个之间的编辑距离。
10. 如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。
11. 如权利要求6所述的系统,其中所述系统进一步包括信息提取部件,其被配置用于从与第一名称以及第二名称相关联的新文档提取信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180075990.X/1.html,转载请声明来源钻瓜专利网。