[发明专利]通用购物小票数据精准提取方法有效
申请号: | 201910691300.1 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110413659B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王春雷;张辉;刘帅 | 申请(专利权)人: | 南京沁恒微电子股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q30/0201 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用 购物 票数 精准 提取 方法 | ||
1.一种通用购物小票数据精准提取方法,其特征在于,包括如下步骤:
S1、小票数据快速模型化,包括:通过机器学习将待提取的小票与模型库中的模型匹配,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,标记数据域起止关键字、提取点的上下文结构和数据类型,创建数据模型,并将创建的数据模型存储到模型库中;
S2、模型分析,包括:把步骤S1中创建的数据模型反序列化成若干数据域,每个数据域包含一组数据域起止关键字及指定的提取点特征值数组;
S3、关键词精准提取,包括第一步:解析数据域对象,读取属性,根据各数据域起止关键字将小票内容划分为相应提取区域;第二步:获取提取点特征值数组,读取提取点特征值的属性生成提取表达式,用来描述提取关键字所在的上下文结构信息;第三步:在划分出的提取区域中,匹配表达式;
S4、明细输出。
2.根据权利要求1所述的方法,其特征在于,将模型库中的数据模型快速映射到需要提取的小票数据上,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
3.根据权利要求1所述的方法,其特征在于,将待提取的小票数据通过标注进行数据划分,形成数据域。
4.根据权利要求1所述的方法,其特征在于,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字;每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示提取数据的扩展属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京沁恒微电子股份有限公司,未经南京沁恒微电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910691300.1/1.html,转载请声明来源钻瓜专利网。