[发明专利]一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法有效

申请号：	201510920257.3	申请日：	2015-12-10
公开（公告）号：	CN105574649B	公开（公告）日：	2021-05-28
发明（设计）人：	田锋;乐佳;齐天亮;吴凡;郑庆华;马天;姚昀东;兰田	申请（专利权）人：	西安交通大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q40/00;G06Q50/26
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	安彦彦
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于阶段 mapreduce 模型纳税人偷漏税嫌疑检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法，其特征在于，包括以下步骤：

(一)基于着色图的纳税人利益关联网络的构建

纳税人利益关联网络表示为四元组:TPIIN＝(V,E,VColor,EColor)；其中V＝{v_p|p＝1,…,N_p}表示节点集合，其中N_p表示网络中的节点个数；E表示图中所有存在边的集合，且令E＝{e_pq}＝{(v_p,v_q)|0p,q≤N_p}，其中e_pq＝(v_p,v_q)表示存在从第p个节点到第q个节点的有向连线；节点着色集合表示为VColor＝{LC,CC,BC}，其中LC表示法人代表颜色；CC表示企业颜色；BC表示董事颜色；通过VColor中的颜色对TPIIN中的V节点分类可得：V＝L∪C∪B，其中L＝{v_l|l＝1,...,N_L,N_LN_p}表示所有标记颜色为LC的法人代表节点，N_L表示网络中的法人代表节点的个数，C＝{v_c|c＝1,...,N_C,N_CN_p}表示所有标记颜色为CC的企业节点，N_C表示网络中的企业节点的个数，B＝{v_b|b＝1,...,N_B,N_BN_p}表示所有标记颜色为BC的董事节点，N_B表示网络中的董事节点的个数，则有N_L+N_C+N_B＝N_p；有向边着色集合表示为其中表示法人代表与企业之间的单向实际控制人关系；表示董事与企业之间的单向控股关系；表示企业之间的单向控股关系；表示法人代表之间双向的亲属关系；表示多个董事间的双向互锁关系；表示企业间的单向交易关系；

基于着色图的纳税人利益关联网络的构建是采用多网融合方法来生成一个纳税人利益关联网络，具体步骤如下：

Step1：从证监会、公安户籍部门、税务局获得的相关税务信息中，提取出所有的企业C、法人代表L、董事B的信息以及它们之间不同的关系信息，具体包括：企业之间的控股关系和交易关系法人代表与企业之间的实际控制人关系董事与企业之间的控股关系法人代表之间的亲属关系以及董事之间的互锁关系

Step2：利用上述6种同构关系分别构建相关的同构关系网络；

Step3：合并Step2中生成的六种同构关系网络，则构成了一个纳税人利益关联网络TPIIN；

(二)基于强连通分量的纳税人利益关联网络的约减

依据以下步骤对纳税人利益关联网络TPIIN进行逐次约减操作：

Step1：将TPIIN中法人代表与企业之间的控制人关系、董事与企业之间的控股关系与企业之间的控股关系统一归约为“利益控制关系”，用表示，即因此，由上述三种利益控制关系所分别构成的三种同构关系网络，包括企业控股关系网络IN-Net、实际控制人关系网络CL-Net以及董事控股关系网络HR-Net，也合并为一个同构关系网络，称为“利益控制关系网络”，用IC-Net表示，即IC-Net＝CL-Net∪HR-Net∪IN-Net，则TPIIN简化为约减纳税人利益关联网络，用STPIIN表示，即STPIIN＝IC-Net∪IR-Net∪IL-Net∪TR-Net；其中，TR-Net表示企业间的单向交易关系网络；

Step2：对于亲属关系网络IR-Net，利用Tarjan算法找到IR-Net中所有的强连通分量，这些强连通分量的集合表示为IR-Scc，然后，基于IR-Scc中的强连通分量在STPIIN上进行亲属关系聚合操作，STPIIN变为约减后的I型纳税人利益关联网络，用STPIIN-I表示；

Step3：对于互锁关系网络IL-Net，利用Tarjan算法找到其中所有的强连通分量，这些强连通分量的集合表示为IL-Scc，然后，基于IL-Scc中的强连通分量在STPIIN-I上进行互锁关系聚合操作，STPIIN-I变为约减后的II型纳税人利益关联网络，用STPIIN-II表示；

Step4：对于利益控制关系网络IC-Net，利用Tarjan算法找到其中所有的强连通分量，这些强连通分量的集合表示为IC-Scc，然后，基于IC-Scc中的强连通分量在STPIIN-II上进行利益控制关系聚合操作，STPIIN-II变为约减后的III型纳税人利益关联网络，用STPIIN-III表示；

经过上述步骤，由纳税人利益关联网络TPIIN得到网络TN，即TN＝STPIIN-III；

(三)利益前件网络中的所有极大弱连通子图的发现

①生成利益前件网络Ante-TN和交易关系网络Tr-TN

对于网络TN，将其中除交易关系边之外的利益控制关系边及相应的法人代表、董事、企业节点组成的网络称为利益前件网络，用Ante-TN表示，将所有的交易关系边及相应的企业节点组成的网络称为交易关系网络，用Tr-TN表示；

②在Ante-TN中发现所有的极大弱连通子图及其相应的交易边

对于上述①中生成的利益前件网络Ante-TN，利用改进的深度优先搜索算法寻找其中所有的极大弱连通子图，这些极大弱连通子图的集合表示为subgraph＝{subgraph(i)|i＝1,2,...,num}中，其中num表示所发现的极大弱连通子图的个数；同时，利用上述①中生成的交易关系网络Tr-TN，寻找每个极大弱连通子图subgraph(i)中的所有交易关系边，这些交易关系边的集合表示为trade＝{trade(i)|i＝1,2,...,num}；

利用改进的深度优先搜索算法寻找Ante-TN中所有的极大弱连通子图的具体步骤如下：

Step1：搜索Ante-TN中的所有入度为0的节点，存入集合node-0-L中；

Step2：访问node-0-L中的任意一个节点V，并令i＝1；

Step3：得到Ante-TN所对应的无向利益前件网络，用Undirected-Ante-TN表示；

Step4：在Undirected-Ante-TN中，从V的任一邻接点W出发，若W属于node-0-L，则从node-0-L中移除W；

Step5：若W未被访问过，则访问之，转Step4；若W已被访问，转Step6；

Step6：构建从V到W方向的有向边e_VW＝(V,W)，若e_VW属于Ante-TN，则将e_VW存入subgraph(i)中，若e_VW属于Tr-TN，则将e_VW存入trade(i)中；若e_VW既不属于Ante-TN也不属于Tr-TN，则构建从W到V方向的边e_WV＝(W,V)，若e_WV属于Ante-TN，则将e_WV存入subgraph(i)中，若e_WV属于Tr-TN，则将e_WV存入trade(i)中，并构建二元组(subgraph(i),trade(i))；

Step7：若node-0-L不为空，则从中任选一个节点，令i＝i+1，转Step4；若node-0-L为空，则输出(subgraph,trade)，即利益前件网络Ante-TN中所有的极大弱连通子图及其对应的交易关系边所构成的二元组；

(四)基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组发现

①构建模式树

Step1：Maper1端以二元组(subgraph,trade)为输入，并按照Hadoop分布式文件系统的块大小对其进行分片，设分片个数为M₁，则每个分片所包含的极大弱连通子图的个数为n₁₁＝N₁₁/M₁，其中N₁₁为subgraph中的极大弱连通子图的总数，M₁为Maper1任务的个数，然后，作业调度器Job1将每个分片分别交给其对应的一个Maper1任务进行处理；

Step2：调用Maper1任务的方法函数遍历分片中的subgraph(i)，计算subgraph(i)中每个节点v_m的入度indegree_m和出度outdegree_m，将subgraph(i)中所有节点的集合表示为v(i)＝{v_m|m＝1,2,...,N_v}，将subgraph(i)中所有节点的入度indegree_m和出度outdegree_m的集合分别表示为indegree(i)＝{indegree_m|m＝1,2,...,N_v}和outdegree(i)＝{outdegree_m|m＝1,2,...,N_v}，其中，N_v表示subgraph(i)中的节点总数；构建三元组(v(i),indegree(i),outdegree(i))，首先将v(i)中的各个节点按其相应的入度indegree(i)由小到大进行排序，然后将具有相同入度的节点按其出度outdegree(i)由大到小进行排序，得到排序之后的三元组(v′(i),indegree′(i),outdegree′(i))，用sorted3Tuple(i)表示，并生成键/值对i,sorted3Tuple(i)，存入集合keyValuesList1中，keyValuesList1暂时放在本地的内存缓冲区，若缓冲区存满，则将缓冲区的数据写入本地创建的溢写文件中；

Step3：对于keyValuesList1中的所有键/值对，首先在本地进行合并，并按键的值进行排序，然后通过分区类Partitioner1将keyValuesList1中的键/值对分为R₁个分区，每个分区包含的键/值对的个数为n₁₂＝N₁₂/R₁，其中N₁₂为keyValuesList1中的键/值对的总数，R₁为Reducer1任务的个数，每个分区分别交给其对应的一个Reducer1任务进行处理；

Step4：Reducer1任务接收Maper1任务传来的有序数据，并顺序读取，把具有相同键的键/值对合并为一类，形成新的键/值对i,sorted3TupleList，其中，sorted3TupleList为同一个键所对应的所有三元组sorted3Tuple(i)的集合，合并后的值传给Reducer1任务的方法函数，执行对应的算法；

Step5：Reducer1任务的方法函数构建模式树的过程如下，其中，所有的模式树存入patternTreeList＝{patternTree(i)|i＝1,2,...,num}中：

Step5.1：对键值为i的键/值对i,sorted3TupleList，创建一个根节点root_i；

Step5.2：遍历所有输入的i,sorted3TupleList，对于sorted3TupleList中的每个三元组sorted3Tuple(i)，根据indegree′(i)找到v′(i)中所有入度为0的节点，存入集合startNodes(i)中，同时，将root_i到startNodes(i)中的节点的所有边存入patternTree(i)中；

Step5.3：根据outdegree′(i)判断startNodes(i)中是否存在出度不为0的节点，若存在，转Step5.4，若不存在，则输出patternTree(i)，存入模式树列表patternTreeList中；

Step5.4：遍历subgraph(i)和trade(i)，判断是否存在以这些出度不为0的节点为起始节点的边，若存在，则将这些边存入集合arcs(i)中，转Step5.5，若不存在，则输出patternTree(i)，存入模式树列表patternTreeList中；

Step5.5：将arcs(i)中的边的终止节点存入集合endNodes(i)中，并将arcs(i)中的边存入patternTree(i)中，然后令startNodes(i)＝endNodes(i)，并清空arcs(i)和endNodes(i)，转Step5.4；

②生成模式库

Step1：Maper2端将第1个MapReduce过程输出的模式树列表patternTreeList按照Hadoop分布式文件系统的块大小划分为M₂个分片，每个分片包含的模式树的个数为n₂₁＝N₂₁/M₂，其中N₂₁为patternTreeList中的模式树的总数，M₂为Maper2任务的个数，然后，作业调度器Job2将每个分片分别交给其对应的一个Maper2任务进行处理；

Step2：调用Maper2任务的方法函数从每个模式树的根节点root_i开始遍历，遍历历经节点A_r，若遇到出度为0的节点A_r，则生成的模式(root_i,A₁,...,A_r)，用oldPatternBase1表示，并形成键/值对root_i,oldPatternBase1，若首次到达某条交易边的终止节点v，则生成模式(root_i,A₁,...,A_r)→v，用oldPatternBase2表示，并形成键/值对root_i,oldPatternBase2，将上述两种键/值对均存入集合oldKeyValuesList中，oldKeyValuesList暂时放在本地的内存缓冲区，若缓冲区存满，则将缓冲区的数据写入本地创建的溢写文件中；

Step3：对于oldKeyValuesList中的所有键/值对，首先在本地进行合并，并按键的值进行排序，然后分区类Partitioner2将oldKeyValuesList中的键/值对分为R₂个分区，每个分区包含的键/值对的个数为n₂₂＝N₂₂/R₂，其中N₂₂为oldKeyValuesList中的键/值对的总数，R₂为Reducer2任务的个数，每个分区分别交给其对应的一个Reducer2任务进行处理；

Step4：Reducer2任务接收Maper2任务传来的有序数据并顺序读取，把具有相同键的键/值对合并为一类，形成新的键/值对root_i,oldPatternBaseList，其中，oldPatternBaseList为同一个键所对应的模式的集合，合并后的值传给Reducer2任务的方法函数，执行对应的算法；

Step5：调用Reducer2任务的方法函数遍历所有输入的root_i,oldPatternBaseList，对于oldPatternBaseList中的每个模式，包括oldPatternBase1和oldPatternBase2，删掉其中的根节点root_i，生成模式(A₁,...,A_r)和(A₁,...,A_r)→v，分别用patternBase1与patternBase2表示，均存入模式列表patternBaseList中；

③生成键值对列表

Step1：Maper3端将第2个MapReduce过程输出的模式列表patternBaseList按照Hadoop分布式文件系统的块大小划分为M₃个分片，每个分片包含的模式的个数为n₃₁＝N₃₁/M₃，其中N₃₁为patternBaseList中的模式的总数，M₃为Maper3任务的个数，然后，作业调度器Job3将每个分片分别交给其对应的一个Maper3任务进行处理；

Step2：调用Maper3任务的方法函数提取每个模式patternBase的前件中的所有元素(A₁,...,A_r)及后件元素v分别作为键，生成N₁个键/值对A₁,patternBase,…,A_r,patternBase,v,patternBase，其中N₁为patternBase中的节点个数，将这些键/值对存入集合keyValuesList3中，keyValuesList3暂时放在本地的内存缓冲区，若缓冲区存满，则将缓冲区的数据写入本地创建的溢写文件中；

Step3：对于keyValuesList3中的所有键/值对，首先在本地进行合并，并按键的值进行排序，然后分区类Partitioner3将keyValuesList3中的键/值对分为R₃个分区，每个分区包含的键/值对的个数为n₃₂＝N₃₂/R₃，其中N₃₂为keyValuesList3中的键/值对的总数，R₃为Reducer3任务的个数，每个分区分别交给其对应的一个Reducer3任务进行处理；

Step4：Reducer3任务接收Maper3任务传来的有序数据并顺序读取，将具有相同键w的键/值对合并为一类，形成新的键/值对w,newPatternBaseList，其中，newPatternBaseList为同一个键所对应的所有值的集合，合并后的值传给Reducer3任务的方法函数，执行对应的算法；

Step5：调用Reducer3任务的方法函数遍历所有输入的w,newPatternBaseList，对于newPatternBaseList中的每个模式patternBase，若w为其前件元素，则将patternBase放入前件列表r_patternBaseList中；若w为其后件元素，则将patternBase放入后件列表v_patternBaseList中，最后，对每一个键w生成键/值对w,r_patternBaseList或w,v_patternBaseList；

④利用键值对列表进行前件匹配

Step1：Maper4端将第3个MapReduce过程的输出按照Hadoop分布式文件系统的块大小划分为M₄个分片，每个分片包含的模式的个数为n₄₁＝N₄₁/M₄，其中N₄₁为输入的所有键/值对的个数，M₄为Maper4任务的个数，然后，作业调度器Job4将每个分片分别交给其对应的一个Maper4任务进行处理；

Step2：对输入的每一个键w调用Maper4任务的方法函数，首先判断其对应的前件列表r_patternBaseList和后件列表v_patternBaseList是否均存在，若均存在，则每次从r_patternBaseList和v_patternBaseList中各取出一个模式patternBase1和patternBase2进行匹配，直到所有组合匹配完毕；反之，则不考虑该键/值对；其中，上述匹配原则为：若对应的两个模式patternBase1和patternBase2存在相同的前件元素，则匹配成功，将patternBase1和patternBase2放入模式二元组(patternBase1,patternBase2)中，并生成键/值对w,(patternBase1,patternBase2)，将这些键/值对存入集合keyValuesList4中，keyValuesList4暂时放在本地的内存缓冲区，若缓冲区存满，则将缓冲区的数据写入本地创建的溢写文件中；

Step3：对于keyValuesList4中的所有键/值对，首先在本地进行合并，并按键的值进行排序，然后分区类Partitioner4将keyValuesList4中的键/值对分为R₄个分区，每个分区包含的键/值对的个数为n₄₂＝N₄₂/R₄，其中N₄₂为keyValuesList4中的键/值对的总数，R₄为Reducer4任务的个数，每个分区分别交给其对应的一个Reducer4任务进行处理；

Step4：Reducer4任务接收Maper4任务传来的有序数据并顺序读取，把具有相同键的键/值对合并为一类，形成新的键/值对w,patternBasePair，其中，patternBasePair为同一个键所对应的所有模式二元组(patternBase1,patternBase2)的集合，合并后的值传给Reducer4任务的方法函数，执行对应的算法；

Step5：对输入w,patternBasePair调用Reducer4任务的方法函数，取出patternBasePair中的二元组(patternBase1,patternBase2)，找到patternBase1和patternBase2形成的弱连通子图，将其中包含的所有节点存入集合wcc_ii中，然后将wcc_ii作为输出存入偷漏税嫌疑群组列表susGroups中，即susGroups＝{wcc_ii|ii＝1,2,...,p}，其中p表示弱连通子图的数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510920257.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法有效

专利文献下载