[发明专利]通用购物小票数据精准提取方法有效

专利信息
申请号: 201910691300.1 申请日: 2019-07-29
公开(公告)号: CN110413659B 公开(公告)日: 2023-06-02
发明(设计)人: 王春雷;张辉;刘帅 申请(专利权)人: 南京沁恒微电子股份有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06Q30/0201
代理公司: 北京品源专利代理有限公司 11332 代理人: 胡彬
地址: 210012 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 通用 购物 票数 精准 提取 方法
【权利要求书】:

1.一种通用购物小票数据精准提取方法,其特征在于,包括如下步骤:

S1、小票数据快速模型化,包括:通过机器学习将待提取的小票与模型库中的模型匹配,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,标记数据域起止关键字、提取点的上下文结构和数据类型,创建数据模型,并将创建的数据模型存储到模型库中;

S2、模型分析,包括:把步骤S1中创建的数据模型反序列化成若干数据域,每个数据域包含一组数据域起止关键字及指定的提取点特征值数组;

S3、关键词精准提取,包括第一步:解析数据域对象,读取属性,根据各数据域起止关键字将小票内容划分为相应提取区域;第二步:获取提取点特征值数组,读取提取点特征值的属性生成提取表达式,用来描述提取关键字所在的上下文结构信息;第三步:在划分出的提取区域中,匹配表达式;

S4、明细输出。

2.根据权利要求1所述的方法,其特征在于,将模型库中的数据模型快速映射到需要提取的小票数据上,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。

3.根据权利要求1所述的方法,其特征在于,将待提取的小票数据通过标注进行数据划分,形成数据域。

4.根据权利要求1所述的方法,其特征在于,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字;每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示提取数据的扩展属性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京沁恒微电子股份有限公司,未经南京沁恒微电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910691300.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top