[发明专利]一种基于知识图谱的暗网话题发现方法和系统有效

专利信息
申请号: 201910305756.X 申请日: 2019-04-16
公开(公告)号: CN110046260B 公开(公告)日: 2021-06-08
发明(设计)人: 谭庆丰;陈小龙;谭润楠;张宇;顾钊铨;田志宏;殷丽华 申请(专利权)人: 广州大学
主分类号: G06F16/36 分类号: G06F16/36;G06K9/62
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 颜希文;麦小婵
地址: 510006 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 图谱 话题 发现 方法 系统
【说明书】:

发明公开了一种基于知识图谱的暗网话题发现方法和系统,包括:对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;将去重处理后的所述暗网数据进行降维处理;通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。

技术领域

本发明涉及大数据挖掘技术领域,尤其涉及一种基于知识图谱的暗网话题发现方法和系统。

背景技术

如今,全球已有超过一半人口在使用互联网,但是用户通常所使用的facebook、twitter、youtube、微博等“明网”只是整个互联网的表层部分,而全球互联网绝大部分实际上都是不能被用户通过搜索引擎检索到的,这一部分被称之为“深网”,而“暗网”又是“深网”中可以提供匿名服务与匿名访问的更深层次的互联网络,需要特定的技术手段才可访问暗网。目前正在受到各国政府、企业、公安部门越来越多关注的利用互联网海量异构数据进行话题发现与舆情分析的系统也主要是集中在明网层面,对暗网上的数据进行话题发现与舆情分析往往能产生更具有价值的信息,其发现和分析结果能够对社会安全稳定和经济健康发展产生巨大的情报价值。

现有进行互联网话题发现的技术主要是对可被搜索引擎检索到的web页面进行爬取,然后对网页内容进行相似度计算和聚类分析,或者对web文本内容进行词的共现分析和LDA主题模型算法。相似度计算主要有基于距离的相似度计算、余弦相似度计算、编辑距离相似度计算和Jaccard相似性计算等,聚类主要有K均值聚类、层次聚类、基于密度的聚类等,而共现词分析主要就是关键词词频和共词分析,构建关键词共现网络来发现核心热点词以及话题,LDA主题模型算法根据文档中的各个单词,推测其主题的概率分布,从而确定文档的主题,利用各个文档的主题分布进行话题发现。

但是由于暗网空间中存在大量的黑话导致暗网的话题更加隐秘,上述技术没有充分考虑暗网黑话特定的语义信息,不能实现对拥有众多黑话的暗网空间内容信息的充分提取,另外暗网空间的数据更加稀疏、碎片化,并且由于暗网黑话的大量存在导致数据也呈现出弱信号特点,上述技术对于非常稀疏和弱信号的数据不能直接进行有效处理,也不能对这些数据进行弱关联分析,同时现有的技术只能针对已有的话题进行分析发现,不能进行话题的推理从而预测新兴话题。

发明内容

本发明提供了一种基于知识图谱的暗网话题发现方法和系统,以解决现有技术不能实现对拥有众多黑话的暗网空间内容信息的充分提取,以及无法对非常稀疏和弱信号的数据直接进行有效处理的技术问题,从而通过构建知识图谱对黑话表示的弱信号数据进行关联关系分析,实现暗网话题的发现、推理及预测,为暗网舆情处理和情报分析提供有价值的信息。

为了解决上述技术问题,本发明实施例提供了一种基于知识图谱的暗网话题发现方法,包括:

对获取的暗网数据进行web页面去重,通过算法对存在同一个页面采集了多次的数据进行去重处理;

将去重处理后的所述暗网数据进行降维处理;

通过黑话词典和文档/段落/句子的向量表示配合词向量表示,对降维后的所述暗网数据进行黑话检测识别;

对检测到黑话后的数据进行自然语言处理,提取出弱信号数据的实体、属性、关系和事件;

根据自然语言处理提取的弱信号数据构造事实三元组,构建事件知识图谱;

在所述事件知识图谱中通过图匹配和遍历实现弱信号数据间的关联发现,并通过所述事件知识图谱中的弱信号关联和节点中心性计算实现核心话题的发现。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910305756.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top