[发明专利]基于并行化CEP处理的语义驱动犯罪线索实时推荐方法有效
申请号: | 201710135699.6 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106919700B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 马应龙;马建刚;丁婷 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京拉沃科创知识产权代理事务所(普通合伙) 11745 | 代理人: | 陈永宁 |
地址: | 102206 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 cep 处理 语义 驱动 犯罪 线索 实时 推荐 方法 | ||
本发明公开了Web信息实时推荐领域中的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:爬取指定深度的网页文本;提取爬取网页文本的正文,提取正文关键词;依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;根据语义树编写计算总权值的CEP的事件模式;多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。本发明通过基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,能够使得推荐的结果更加准确同时能够适应大数据的场景。
技术领域
本发明属于Web信息实时推荐领域,尤其涉及一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
背景技术
随着互联网的快速发展,网络的信息呈指数式增长,传统的信息推荐方法如协同过滤方法等,应对于海量数据和实时性要求比较高的时候,便凸显了自己的不足之处。网络技术的诞生和发展,也为案件侦查提供更加广阔的途径。依靠网络开展犯罪线索搜集将成为案件侦查的新方法。因此如何从海量的数据中快速的查找有价值的线索并实时地推荐给相关部门是案件侦查亟需解决的问题。
而现有的一些犯罪线索信息推荐方法主要是利用用户定义的关键词集合,根据文章提取的关键词与关键词集合进行匹配,算出其匹配的关键字的个数,根据个数的大小决定其推荐价值。传统的这种方法忽略了关键词词之间的语义关系且处理过程是集中式的。
发明内容
本发明结合上述背景技术中提到的问题,提出一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。
为了实现上述目的,本发明提出的技术方案是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:
爬取指定深度的网页文本;
提取爬取网页文本的正文,提取正文关键词;
依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;
根据语义树编写计算总权值的CEP的事件模式;
多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
本发明提出的复杂事件处理技术保证了事件处理的实时性,并行化处理保证了海量数据的处理能力,同时在关键词匹配过程中加入关键词之间的语义关系,提高推荐的准确性。
附图说明
图1为基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图;
图2,3,4为职务犯罪的三大类别的犯罪语义树;
图5为总权值不小于0.3实验指标排序准确度的比较;
图6为总权值不小于0.3实验指标排序召回率的比较;
图7为总权值不小于0.3实验指标排序F-测量值的比较。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
实施例1
图1是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图,图1中,发明提供的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法包括:
步骤1:分析法制网和中国法院网的要闻,民主法治网的反腐,中国廉政网的热点透视等指定网站的栏目结构,根据各网站栏目的URL编写爬虫程序。
步骤2:运行爬虫程序爬取各网站栏目的URL。在爬取过程中使用Jsoup解析技术抽取子链接,同时使用布隆过滤器对子链接进行URL重复性检测,若没重复,则执行步骤3,否则丢弃;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710135699.6/2.html,转载请声明来源钻瓜专利网。