[发明专利]一种基于并发任务的项目查重方法及系统在审

专利信息
申请号: 201910287630.4 申请日: 2019-04-11
公开(公告)号: CN110033236A 公开(公告)日: 2019-07-19
发明(设计)人: 李荣;白万建;李冬;李勇;李庆文;何召慧;于展鹏;邢宏伟;王刚;戚鲁凤;王宗光;夏光明 申请(专利权)人: 国网山东省电力公司
主分类号: G06Q10/10 分类号: G06Q10/10;G06F16/31;G06F16/33;G06F16/335
代理公司: 北京元本知识产权代理事务所 11308 代理人: 岳秀梅
地址: 250001 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于并发任务的项目查重方法及系统,包括四个步骤,依托互联网技术将互联网热词、常用词语进行动态解析,形成云端词库。通过文字匹配法对申报材料中的文字信息与云端词库进行匹配,将申报材料切分为具有语义的分词因子,通过加权计算取得最佳分词方案,统计词频并排除高频率的“单字词”。将当前查重项目的分词子集和历史项目的分词子集通过余弦相似性算法CosineSimilar返回当前查重项目和历史项目的相似值。在大数据计算时,利用大容量高速内存,合理使用内存管理,减少硬盘频繁读写访问,开启并发多线程任务,充分利用系统资源,发挥CPU最大频率,以提高查重效率。
搜索关键词: 分词 并发 历史项目 云端 词库 子集 词频 互联网技术 余弦相似性 单字 语义 动态解析 读写访问 高速内存 加权计算 内存管理 文字匹配 文字信息 系统资源 最大频率 大容量 大数据 多线程 高频率 申报 硬盘 热词 算法 匹配 词语 互联网 返回 统计
【主权项】:
1.一种基于并发任务的项目查重方法及系统,其特征在于,包括以下步骤:步骤一、通过分布式方式处理,借用量子物理中的“电子云”(Electron Cloud)技术,利用电子云的既然性、弥漫性、同时性等特性,收集互联网上的常用词语和热度,传输至云端服务器进行动态解析,将解析的词语按照热度排列保存为云端词库。步骤二、开启并发多线程任务,通过处理器的详细信息,CPU的使用率,内存使用率并结合并发参数(default=2),计算可开启的并发线程数量Num_Threads,保留核心线程以保证系统的正常运行,对于后续步骤中出现大批量数据计算时系统都将自动采用并发多线程任务,充分利用系统资源,发挥CPU最大频率,以提高查重效率。步骤三、将当前查重的申报材料拆分为段落集合,其中Cur_Sen是申报材料的段落集合;Sen_1,Sen_2,…,Sen_n是拆分的段落。通过正向匹配法并结合云端词库,将每个段落解析为具有语义分词的集合,其中Cur_Sen_i_F是正向匹配法的段落分词集合;Word_1,Word_2,…,Word_n是将段落拆分的分词;i=1,2,…,n是段落的索引index。通过词库中的热度计算匹配加权得分,其中Cur_FScore为正向匹配法段落的加权总分数;sum{hot(Word_i)^2}是通过hot函数计算分词的加权分数,然后通过sum函数计算合计数;i=1,2,…,n是分词的索引index。对于词库中不存在的词语则设置匹配加权得分为0。通过逆向匹配法并结合云端词库,将每个段落解析为具有语义分词的集合,其中Cur_Sen_i_R是逆向匹配法的段落分词集合;Word_1,Word_2,…,Word_n是将段落拆分的分词;i=1,2,…,n是段落的索引index。通过词库中的热度计算匹配加权得分,其中Cur_RScore为逆向匹配法段落的加权总分数;sum{hot(Word_i)^2}是通过hot函数计算分词的加权分数,然后通过sum函数计算合计数;i=1,2,…,n是分词的索引index。对于词库中不存在的词语则设置匹配加权得分为0。最后取分词得分最大或分值相同时取前者的分词方案。Max_Score=max{Cur_FScore,Cur_RScore},循环计算直到所有段落计算完毕,将分词集合保存到数据库中为今后重复利用。同理,历史项目中的申报材料如果分词结果为空时,也采用步骤三的方法对申报材料进行解析,计算最佳分词方案并存储到数据库中。步骤四、通过统计分词算法将当前查重项目分词因子和历史项目的分词因子标记索引求出集合,统计词频并排除高频率的“单字词”(如“的”、“地”、“了”等)。其中Cur_Word_Index是待查重项目的分词词频集合;W_ID_1,W_ID_2,…,W_IN_n是分词因子索引;Num_1,Num_2,…,Num_n是分词的词频。其中His_Word_Index是历史项目的分词词频集合;W_ID_1,W_ID_2,…,W_IN_n是分词因子索引;Num_1,Num_2,…,Num_n是分词的词频。通过哈希表的Map接口计算当前查重项目的词频向量c0=[Num_1,Num_2,…,Num_n]和历史项目的词频向量c1=[Num_1,Num_2,…,Num_n],将词频向量结果构建并集,其中Index为每个分词因子的索引号;通过余弦相似性算法CosineSimilar返回当前查重项目和历史项目的相似值,相似值越接近于1则相似度越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司,未经国网山东省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910287630.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top