[发明专利]一种基于elasticsearch父子关系的海量发票数据查询方法及系统在审
申请号: | 201911389046.6 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111241121A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 赵建明;池纪田;吴童;徐记涛;于晓;苑鲁娜;张乐鹏;肖安房;张文志 | 申请(专利权)人: | 航天信息(山东)科技有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06Q30/04;G06Q40/00 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 250101 山东省济南市新泺*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elasticsearch 父子 关系 海量 发票 数据 查询 方法 系统 | ||
1.一种基于elasticsearch父子关系的海量发票数据查询方法,其特征是,该方法包括以下步骤:
创建父子关系表,设置维度表纳税人数据为父节点,事实表发票数据为子节点;
创建父节点的具体信息、创建子节点的具体信息;
在父级和子级之间创建链接,使子级文档与父级文档存储在同一分片上;
采用固定的周期创建索引,通过has_child查询父级中的数据返回子级、查询子级中的数据返回父级。
2.根据权利要求1所述的方法,其特征是,在上述方法之前还包括:将维度表纳税人数据与事实表发票数据存储在greenplumn数据库中。
3.根据权利要求2所述的方法,其特征是,所述的维度表纳税人数据包括:纳税人KEY、纳税人识别号、纳税人名称、所属省份、所属地市、法定代表人名称、法人证件号码、财务联系人、税务机关、行业明细名称、经营范围、生产经营地址、从业人数、注册资本、登记注册乐行名称、开业登记日期、是否一般纳税人、认定一般纳税人日期、取消日期、电话号码、创建时间、行业KEy、地区key、纳税人电子档案号、纳税人状态代码、财务负责人证件号码、三证合一之前的纳税人识别号、开业登记日期、增值税企业类型代码、减免税审批结果标志、办税人姓名、办税人证件号码、税收管理员代码。
4.根据权利要求2所述的方法,其特征是,所述的事实表发票数据包括:开票月份、纳税人KEY、发票类别、物品名称、物品单位、物品序号、金额、税率、税额、发票代码、发票号码、dw_fact_xxfp的id、作废标志、开票日期、销方纳税人名称、购方纳税人名称、报税时间、列表序号、明细ID、销方纳税人识别号、购方纳税人识别号、税控盘号、身份证号码、单位、商品编码、购方税务机关代码、差额开票标志、Y是、N否、单价、物品数量、所属地市。
5.根据权利要求4或3任意一项所述的方法,其特征是,在父级和子级之间创建链接具体包括:采用纳税人KEY作为父级与子级的关联条件。
6.根据权利要求1所述的方法,其特征是,所述的创建父子关系表通过kettle调用elasticsearch-jdbc进行创建父子关系。
7.根据权利要求1所述的方法,其特征是,在创建索引时,还包括设置分词,用于数据的模糊查询、精确查询。
8.根据权利要求7所述的方法,其特征是,所述的模糊查询在设置分词时没有指定index属性,通过match_phras实现查询;所述的精确查询在设置分词时制定了index的not_analyzed属性,通过term实现查询。
9.一种基于elasticsearch父子关系的海量发票数据查询系统,其特征是,该系统包括父子关系表创建模块,用于通过kettle调用elasticsearch-jdbc创建父子关系表;或/和,
greenplumn数据库,用于存储父节点和子节点的具体信息;或/和,
关联模块,用于在父级和子级直接创建链接,使系统在不重新更新子索引的情况下能够更新父索引;或/和,
查询模块,用于创建索引,通过has_child进行快速查询。
10.根据权利要求9所述的系统,其特征是,该系统还包括分词设置模块,用于在创建索引时设置分词,实现数据的模糊查询和精确查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息(山东)科技有限公司,未经航天信息(山东)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911389046.6/1.html,转载请声明来源钻瓜专利网。