[发明专利]文档处理有效
申请号: | 201810691975.1 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109213870B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | J·R·普里斯塔斯;T·L·奥加拉;B·萨卡莱努;U·博万;M·考克兰;P·萨里斯丹;J·弗德;T·D·佩里;T·M·加夫尼;M·H·福托普洛斯 | 申请(专利权)人: | 埃森哲环球解决方案有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;黄捷 |
地址: | 爱尔兰*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文档处理系统接收电子文档,该电子文档包括从各种源生成的具有不同格式的组件文档。除了格式化信息和结构化信息之外,还可以从电子文档中提取纯文本数据。纯文本数据被划分为区段,并从这些区段中提取和链接各种实体。根据样式信息对显示包括纯文本数据的内容的交互式图形用户界面(GUI)进行格式化,并且从所链接的实体确定注释实体关系。GUI使得能够对注释实体关系进行用户编辑。 | ||
搜索关键词: | 文档 处理 | ||
【主权项】:
1.一种从电子文档提取可编辑数据的文档处理系统,所述系统包括:一个或多个处理器;以及非暂态数据存储装置,其包括机器可执行指令,所述机器可执行指令使得所述一个或多个处理器执行以下操作:将不可编辑图像文件转换为标记文件,所述不可编辑图像文件与电子文档有关,以及所述电子文档包括至少一个组件文档,以及所述标记文件保留来自所述图像文件的所述组件文档的格式和结构;解析所述标记文件以提取所述不可编辑图像文件的纯文本数据;从所述标记文件中确定所述不可编辑图像文件的样式信息;通过根据边界规则来分析所述标记文件的内容,自动地将所述纯文本数据划分成区段;从所述纯文本数据的所划分的所述区段自动标识和提取实体,所述标识使用自然语言处理(NLP)来执行;使用以下至少一项来链接所述实体:领域特定的本体论,知识库,以及图形推理;生成交互式图形用户界面(GUI),所述GUI显示内容,所述内容包括根据所述样式信息而被格式化的所述纯文本数据,所述GUI包括从所链接的所述实体确定的注释实体关系,以及所述GUI使得能够进行用于编辑所述内容和所述注释实体关系中的一个或多个的用户交互;以及向所述知识库传送对以下一项或多项的用户编辑:所述实体关系、所述内容、所述结构、以及所述格式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃森哲环球解决方案有限公司,未经埃森哲环球解决方案有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810691975.1/,转载请声明来源钻瓜专利网。