[发明专利]基于并行化CEP处理的语义驱动犯罪线索实时推荐方法有效
申请号: | 201710135699.6 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106919700B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 马应龙;马建刚;丁婷 | 申请(专利权)人: | 华北电力大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京拉沃科创知识产权代理事务所(普通合伙) 11745 | 代理人: | 陈永宁 |
地址: | 102206 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 cep 处理 语义 驱动 犯罪 线索 实时 推荐 方法 | ||
1.基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,包括:
步骤1)爬取指定深度的网页文本,具体为:
步骤11)分析指定网站的结构,根据种子URL编写爬虫程序;
步骤12)运行爬虫程序爬取种子URL,在爬取过程中使用网页解析技术抽取子链接;
步骤13)同时对子链接进行URL重复性检测,对重复的子链接丢弃;
步骤2)提取爬取网页文本的正文,提取正文关键词,具体为:
步骤21)对网页的子链接进行爬取并使用网页解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文;
步骤22)对正文使用关键词提取技术,得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入消息系统;
步骤3)依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配,具体为:
步骤31)依据某一具体犯罪类别的术语的分类关系和相关关系,手动的将某一具体犯罪类别词汇库中的术语构建一棵犯罪的语义树;
步骤32)语义树从下到上对提取到的消息系统中的关键词进行匹配,得到一个关于犯罪语义树中每层结点的匹配个数的集合;
步骤4)根据语义树的树中每层结点的匹配个数以及权值的设置,编写计算总权值的CEP的事件模式,具体为:
设结点所在层数为其权值,网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和,总权值的计算公式为:
Re表示总权值,wi表示i层结点对应的权值,li表示i层关键词匹配的个数,结点个数为n,Re的值越大则表示与某一具体犯罪类别的相关性越高;
步骤5)多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。
2.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,对总权值进行归一化和降序排序,包括:
对每个网页文本计算出来的总权值进行归一化处理,归一化处理后的总权值在0~1之间,将总权值越高的网页优先推荐给用户,归一化处理的公式定义为:
网页文本集合的大小为n,Wmax表示的是网页文本集合中总权值最大的,Wmin表示的是网页文本集合中总权值最小的,Wi表示为i个网页文本的总权值,Wi'(1≤i≤n)则表示网页文本集合中每个总权值归一化处理后对应的值。
3.根据权利要求1所述的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,其特征在于,该方法还包括:
在将语义树与提取的关键词匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上进行,且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入消息系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710135699.6/1.html,转载请声明来源钻瓜专利网。