[发明专利]金融文档信息智能提取系统及方法有效

专利信息
申请号: 201811045306.3 申请日: 2018-09-07
公开(公告)号: CN110889310B 公开(公告)日: 2023-05-09
发明(设计)人: 郭庆河;白石;宋嘉琪;宫路;张怀朋;高海慧;石珍珍;王子芃 申请(专利权)人: 深圳市赢时胜信息技术股份有限公司
主分类号: G06V30/414 分类号: G06V30/414;G06F16/31
代理公司: 上海宏京知识产权代理事务所(普通合伙) 31297 代理人: 邓文武
地址: 518035 广东省深圳市福田区华富街道莲*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 金融 文档 信息 智能 提取 系统 方法
【权利要求书】:

1.金融文档信息智能提取系统,其特征是包括服务器,所述服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,所述文档数据接收端口用于接收外部文档数据,所述数据归一化模块用于将外部文档数据归一化处理成统一格式,所述文本数据库用于存储、管理统一格式的文本数据,所述表格数据库用于存储、管理统一格式的表格数据,所述资源加载端口连接所述资源数据库用于加载外部资源数据,所述资源数据库用于存储、管理加载的外部资源,所述数据提取模块用于提取文档信息,所述文本提取信息数据库用于存储、管理提取的文本信息,所述表格提取信息数据库用于存储、管理提取的表格信息,所述文本表格合并信息数据库用于存储、管理合并的提取文本、表格信息;数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库。

2.金融文档信息智能提取方法,所述金融文档信息智能提取方法基于金融文档信息智能提取系统,所述金融文档信息智能提取系统包括服务器,所述服务器包括文档数据接收端口、数据归一化模块、文档数据库、资源加载端口、资源数据库、数据提取模块、文档提取信息数据库,所述文档数据库包括文本数据库、表格数据库,所述文档提取信息数据库包括文本提取信息数据库、表格提取信息数据库、文本表格合并信息数据库,其特征是包括步骤:

⑴数据归一化模块将通过文档数据接收端口获取的外部文档数据分类成Excel文档、Word文档、OCR识别文档,数据归一化模块将Excel文档转换成设定格式的表格数据,数据归一化模块将Word文档分解成文本部分、表格部分,数据归一化模块将文本部分合并转换成设定格式的文本数据,数据归一化模块将表格部分转换成设定格式的表格数据,数据归一化模块将OCR识别文档的文本区域合并转换成设定格式的文本数据,数据归一化模块将OCR识别文档的表格区域重组成Excel格式后转换成设定格式的表格数据,文本数据存入文本数据库,表格数据存入表格数据库;

⑵数据提取模块根据资源数据库的业务配置数据生成待提取字段的正则表达式,数据提取模块将文本数据与正则表达式进行全文匹配来过滤提取文本数据,组合匹配结果得到提取的文本信息存入文本提取信息数据库,数据提取模块根据排版方式将表格数据分为横版表格数据、竖版表格数据,数据提取模块分别提取横版表格数据、竖版表格数据进行模糊匹配、格式化得到提取的表格信息存入表格提取信息数据库,数据提取模块合并提取的文本信息、表格信息存入文本表格合并信息数据库。

3.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑴还包括过程:数据归一化模块按照OCR识别文档的表格区域的位置信息的Y轴坐标将表格区域排序,然后定义行对象、单元格对象、表格区域对象,遍历表格区域列表,如果表格区域与当前创建的行对象存在Y轴坐标重合,则根据表格区域创建当前行对象的单元格对象,将表格区域添加到当前行对象中,更新行对象当前实际上下沿坐标来添加新行对象作为当前行对象,判断当前行对象是否与表格区域存在Y轴坐标重合,最后遍历行对象列表,从右至左判断单元格对象是否与前面单元格对象存在X轴坐标重合,如果存在X轴坐标重合则合并单元格对象。

4.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:通过NLP技术获取正则表达式使用的语料,通过词性标注找到所有非名词短语,通过词向量找到非名词短语的同义词,通过非名词短语作为字段值的边界条件进行全文匹配,根据业务配置数据中的上下文信息过滤提取数据。

5.根据权利要求2所述的金融文档信息智能提取方法,其特征在于,步骤⑵还包括过程:数据提取模块同时判断表格数据中的上下两行是否存在字段值,如果上一行存在字段值,同时下一行没有字段值,则判断当前表格数据是竖版表格数据,如果上一行与下一行都存在字段名,则判断当前表格数据是横版表格数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市赢时胜信息技术股份有限公司,未经深圳市赢时胜信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811045306.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top