[发明专利]电子政务查重方法、装置以及计算机可读存储介质在审
申请号: | 201711354088.7 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107908796A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 周贵廷;黄华慧 | 申请(专利权)人: | 广州市齐明软件科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/26 |
代理公司: | 广州三环专利商标代理有限公司44202 | 代理人: | 麦小婵,郝传鑫 |
地址: | 510670 广东省广州市高新技术*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子政务 方法 装置 以及 计算机 可读 存储 介质 | ||
技术领域
本发明涉及数据处理领域,具体涉及一种电子政务查重方法、装置以及计算机可读存储介质。
背景技术
我国电子政务从上世纪80年末开始至今,已有20多年的发展历史。各级财政每年投入大量财政资金,用于各领域电子政务信息平台建设,虽然已取得了一定的成效,但也存在着大量财政信息化资金浪费和重复建设等问题。
为了避免在电子政务项目的重复申报而导致的资金浪费现象,在电子政务项目的申报审核过程中,主要依靠人工审查方式和通过将项目建议书的关键词集与项目数据库做简单比对这两种查重方式,将重复申报的项目从大量上报的项目中筛选出来。这两种筛选方式虽然也能够在一定程度上减少科研项目的重复申报,但是仍然存在效率低下和容易出现错判、漏判的缺点。而且目前通过项目建议书的关键词语项目数据库对比的查重方式只能从结构化的文件中提取关键词,不能适用于电子政务领域。一方面不同地方对项目建议书的格式要求不同,很难找到统一的描述模式;另一方面大部分信息化管理部门系统只要求登记部分结构化信息,比如项目名称、项目承担单位、建设目标、内容摘要等,而项目建议书大都以附件形式上传,由此导致电子政务项目的查重更为复杂,兼容性和可靠性较差,查重效率低。
发明内容
本发明的目的是提供一种电子政务查重方法、装置以及计算机可读存储介质,提高电子政务查重的兼容性、可靠性以及查重效率。
为解决以上技术问题,本发明实施例提供一种电子政务查重方法,所述电子政务查重方法由电子政务查重系统执行,包括:
对存储在项目数据库中的多个项目建议书分别提取多个文本信息;
根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本信息数据库中;
分别计算所述多个文本信息的相似度;
根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;
根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果。
优选地,所述分别计算所述多个文本信息的相似度,具体包括:
所述电子政务查重系统包括任务主节点和多个任务从节点;
根据预设的分配规则,所述任务主节点生成多个任务指令并分发给多个任务从节点;
根据所述任务指令,所述任务从节点从指定的文本信息数据库中获取多个指定的文本信息,并计算所述多个指定的文本信息的相似度。
优选地,所述根据所述项目建议书对应的多个文本信息的相似度,计算所述项目建议书的相似度,具体包括:
所述任务主节点对任意一个所述项目建议书对应的多个文本信息的相似度进行加权整合处理,得到任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度。
优选地,所述对存储在项目数据库中的多个项目建议书分别提取多个文本信息,具体包括:
判断所述项目建议书是否为结构化数据;
当所述项目建议书是结构化数据时,从所述项目建议书中提取多个文本信息;
当所述项目建议书不是结构化数据时,调用电子政务查重系统的操作系统的底层消息服务,虚拟打开所述项目建议书,从虚拟打开的所述项目建议书中提取多个文本信息。
优选地,所述计算所述多个指定的文本信息的相似度,具体包括:
对所述多个指定的文本信息进行分词;
根据分词结果,采用双向最大匹配法计算所述多个指定的文本信息的相似度。
优选地,所述根据分词结果,计算所述多个指定的文本信息的相似度具体包括:
当正向分词结果分词数量不等于反向分词结果的分词数量时,获取较少的分词数量;
当正向分词结果分词数量等于反向分词结果的分词数量时,判断正向分词结果与反向分词结果是否相同;
当正向分词结果与反向分词结果相同时,获取正向分词结果和反向分词结果中任意一个分词结果;当正向分词结果与反向分词结果不相同时,获取正向分词结果和反向分词结果中单字较少的分词结果;
根据获取的分词结果,计算重复分词的数量;
根据重复分词的数量和较多的分词数量,计算所述文本信息的相似度。
优选地,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的电子政务查重方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市齐明软件科技有限公司,未经广州市齐明软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711354088.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于3S技术的土壤采集信息处理系统
- 下一篇:基于运动的表盘和复杂功能块