[发明专利]一种基于财政大数据的分布式内容查重预警系统在审
申请号: | 201811562264.0 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109636352A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 李景龙 | 申请(专利权)人: | 湖南晖龙集团股份有限公司 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06Q50/26 |
代理公司: | 长沙市和协专利代理事务所(普通合伙) 43115 | 代理人: | 熊晓妹 |
地址: | 410000 湖南省长沙市芙蓉区湘*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式内容 内容分析 大数据 项目库 预警系统 申报 引擎 分布式计算技术 任务调度中心 数据管理平台 数据管理系统 多服务器 快速计算 内容数据 项目申报 信息推送 预警模型 工商 财政 分析 统一 | ||
1.一种基于财政大数据的分布式内容查重预警系统,其特征在于,包括财政大数据库、项目申报模块、内容预警模块、内容分析引擎、信息推送中心、任务调度中心,其中:
财政大数据库,与工商数据库及项目申报数据库通讯连接,财政大数据库对采集到的项目申报主体的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
项目申报模块,用于用户申报专项资金项目;
内容预警模块,设定内容相似性预警的警戒线数值以及与之对应的预警级别;
内容分析引擎,引擎核心分为两个部分,中文分词算法与内容相似度算法;
信息推送中心,将预警的信息按管理的不同要求进行精准推送;
任务调度中心,负责调度相应的处理算法与功能执行任务。
2.一种基于财政大数据的分布式内容查重预警方法,其特征在于,包括以下步骤:
S1财政大数据库建立,通过设定的算法模型,对采集的工商数据与项目申报数据进行清洗、加工、分类形成工商主题库与项目类主题库;
S2企业通过项目申报模块填写专项资金申报内容,向服务器提交专项资金项目申报请求,服务器端接收客户端发送的项目申报请求,开始接收数据;
S3通过内容分析引擎,调用分词算法功能接口对项目申报内容进行词法分析,并将语句内容拆分成词元,调用存储层接口将分词的词元存储财政大数据库中,申报主体的项目申报内容会以文档形式存储在HDFS与MangoDB中;
S4通过任务调度中心,调用任务调度中心的任务接口,发布相似度计算任务与工商库企业关系链路计算任务,调用分布式计算工具Spark接口,执行计算任务,利用多服务器算力进行快速计算,快速的计算出申报内容基于项目类主题库与工商类主题库的相似度查重分析;
S5将计算结果反馈给内容预警模型中心,模型判断结果是否触发预警阀值,超过预警值则开始步骤S6,无则结束整个项目内容预警计算流程;
S6通过预警模型中心向预警表中写入预警日志,调用预警结果消息推送接口,消息推送主要通过邮件、站内信、短信、APP的方式进行,可以动态设定消息推送方式;
S7通过信息推送中心进行预警结果消息推送,打开消息通知,查看查重结果,重复的内容被标注出来进行显示。
3.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法,其特征在于,所述的S3中分词算法基于正向匹配的分词算法,具体方法为:采用的智能分词模式smart模式,本系统分词引擎分词器则会根据内在方法输出一个认为最合理的分词结果,同时在本算法中建设性的开创词元与词元链概念,词元链是分词的一种结果根据前后顺序组成一个链式结构,其本质是由交叉的词元组成的有序集合,词元对象中定义了词元在整个链路中的位置,用于消除歧义。
4.根据权利要求2所述的基于财政大数据的分布式内容查重预警方法,其特征在于,所述的S4中相似度查重分析的方法采用SimHash相似度算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南晖龙集团股份有限公司,未经湖南晖龙集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811562264.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理