[发明专利]基于摩尔标识的自动交叉判断检索匹配模板的方法、系统及存储介质在审
申请号: | 202011404205.8 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112417837A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 万晓磊;冯玉静;张东峰;陆欢旺 | 申请(专利权)人: | 上海三稻智能科技有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/18;G06F40/169;G06F16/335 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 谢绪宁;薛赟 |
地址: | 200040 上海市静安区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 摩尔 标识 自动 交叉 判断 检索 匹配 模板 方法 系统 存储 介质 | ||
本申请涉及数据处理的技术领域,公开了基于摩尔标识的自动交叉判断检索匹配模板的方法、系统及存储介质,包括:模板标注,包括:指定并标注Excel模板文件对应的业务类型,以及标注Excel模板文件的关键字,以区分及确定模板;业务标注,对Excel模板文件进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签,循环体标注包括横向循环体标注及竖向循环体标注;匹配模板,上传待解析的文件,将待解析的文件依次与各Excel模板文件进行匹配,选择有效数值匹配最多的Excel模板文件;文件解析,抓取待解析的文件中与所选Excel模板文件匹配的数据。本申请可自动匹配模板进行数据识别。减少了指定识别模板,提升了识别效率。
技术领域
本申请涉及数据处理的技术领域,尤其是涉及基于摩尔标识的自动交叉判断检索匹配模板的方法、系统及存储介质。
背景技术
互联网信息时代的今天,计算机数据处理代替了人工办公,但是,在某些系统的某些场景中,需要通过Excel 表格导入数据到系统中。现有的导入方式是提供固定的模板,用户仍需通过依次填充数据后再导入应用系统中。
以前对于Excel单证的数据识别抽取,只能利用指定程序进行单个文件识别解析或者指定对应模板进行识别解析,无法做到自动识别。
发明内容
为了提高识别效率,本申请提供了基于摩尔标识的自动交叉判断检索匹配模板的方法、系统及存储介质。
第一方面,本申请提供的基于摩尔标识的自动交叉判断检索匹配模板的方法,包括:
模板标注,包括:指定并标注所述Excel模板文件对应的业务类型,以及标注所述Excel模板文件的关键字,以区分及确定模板;
业务标注,对所述Excel模板文件进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签,所述循环体标注包括横向循环体标注及竖向循环体标注;
匹配模板,上传待解析的文件,将待解析的文件依次与各所述Excel模板文件进行匹配,选择有效数值匹配最多的Excel模板文件;
文件解析,抓取待解析的文件中与所选Excel模板文件匹配的数据。
通过采用上述技术方案,通过指定并标注所述Excel模板文件对应的业务类型,以及标注所述Excel模板文件的关键字以标注模板关键字,通过对所述Excel模板文件进行业务标注的关键字标注以确定字段参照物,通过对应的单元格、组合单元格、行表体和列表体元素的标签确定表体(开始与结束)参照物等元素,实现了Excel模板文件自动匹配,并进行数据抽取,同类型Excel文件只需标注一次模板,即可自动匹配模板进行数据识别。减少了指定识别模板,大大提升了识别效率。
在一些实施方式中,业务标注后对所述Excel模板文件进行解析,包括:业务类型解析、业务字段解析及业务表体解析,所述业务字段解析包括关键字解析,所述业务表体解析包括横向循环体解析及竖向循环体解析,解析后保存至数据库。
在一些实施方式中,还包括配置预警规则,通过包括日期、数字、中文及十位英文设置预警规则,以在匹配模板时进行初步的数据有效性校验。
在一些实施方式中,在业务标注之后还包括模板测试,以对标注后的所述Excel模板文件进行抽取测试,查看标注效果。
在一些实施方式中,所述文件解析具体包括:
上传待解析的文件,对待解析的文件进行匹配解析,包括:业务类型解析、业务字段解析及业务表体解析,所述业务字段解析包括关键字解析,所述业务表体解析包括横向循环体解析及竖向循环体解析;
抓取待解析的文件中与所选Excel模板文件匹配的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海三稻智能科技有限公司,未经上海三稻智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011404205.8/2.html,转载请声明来源钻瓜专利网。