[发明专利]通用购物小票数据精准提取方法有效
申请号: | 201910691300.1 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110413659B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王春雷;张辉;刘帅 | 申请(专利权)人: | 南京沁恒微电子股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q30/0201 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用 购物 票数 精准 提取 方法 | ||
本发明公开了一种通用购物小票数据精准提取方法,其步骤为:S1、小票数据模型化;S2、模型分析;S3、关键词提取;S4、明细输出。本发明通过建立数据模型对小票进行描述、匹配、提取使得该方法通用性强、识别率高、兼容性好。
技术领域
本发明涉及一种通用购物小票数据精准提取方法,属于数据提取技术领域。
背景技术
随着新零售时代的到来,越来越多的企业以互联网作为依托,通过运用大数据、人工智能等技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构以便高效地利用流量红利。“消费信息统计、购物导向预测、对象差异营销”这种传统电商独有的高回报闭环生态模式也被越来越多的商业综合体所借鉴。
与线上购物平台相比,线下商超无法直接获取各门店的消费信息流,因而包含价目明细的各类购物小票成了消费信息采集分析的唯一入口,与之对应的各种小票数据采集、分析、处理方案也应运而生。在此类应用方案中,如何将处理后的小票内容数据输出为“快速精确的输出商品明细消费信息“是最关键的技术难点之一。
目前行业内常用的提取解决方案是,针对某一个固定小票模板进行,逐行读取小票数据,然后进行分析处理。提取所需要的数据,此方法的缺陷及要解决的问题有以下几点:
逐行读取效率太低。会读取到大量与提取的数据无关的信息,在对数据解析过程中,不方便做数据的上下文分析。
每个商户的小票信息排板布局各不相同,需要为每一型小票写一套提取算法,无法兼容差异化布局小票,增加一种小票就需要为其开发一套提取算法,大大提高了后期算法维护、升级成本,。
每一种类型小票都需要一套提取算法,小票的数据无法形成模板重用,更不方便对近似排版小票进行快速提取。
发明内容
为了解决上述问题,本发明提供一种通用购物小票数据精准提取方法,通过小票快速建模、为提取点生成上下文结构表达式,,实现票据提取通用性兼容性、精准度的全面提升。
解决上述问题的技术方案为:一种通用购物小票数据精准提取方法,包括如下步骤:包括如下步骤:
S1、小票数据模型化;
S2、模型分析;
S3、关键词精准提取;
S4、明细输出。
进一步地,S1的具体步骤为:将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,通过机器学习将待提取的小票与模型库中的模型匹配若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,将模型库中的数据模型快速映射到需要提取的小票数据上,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,将待提取的小票数据通过标注进行数据划分,形成数据域,标记数据域起止关键字、提取点的上下文结构和数据类型。
进一步地,S2的具体步骤为把S1中创建的数据模型反序列化成若干数据域,每个数据域包含一组数据域起止关键字及指定的提取点特征值数组。
进一步地,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字;每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示提取数据的扩展属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京沁恒微电子股份有限公司,未经南京沁恒微电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910691300.1/2.html,转载请声明来源钻瓜专利网。