[发明专利]一种ZeroNet博客及论坛文本抓取及分析方法在审
申请号: | 202010716026.1 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111814068A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 过小宇;丁建伟;孙恩博;陈周国;黎艺泉;谢相菊 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘凯 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 zeronet 博客 论坛 文本 抓取 分析 方法 | ||
本发明涉及信息安全技术领域,本发明公开了一种ZeroNet博客及论坛文本抓取及分析方法,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。本发明使用解析本地数据库的方式获取博客及论坛网站的文本数据,克服了传统爬虫无法获取ZeroNet网站全部文本内容的缺陷。本发明使用半监督LDA主题模型进行建模分析,可以根据不同应用情形进行手动调整,具有较高的精确度和灵活性。
技术领域
本发明涉及信息安全技术领域,尤其涉及一种ZeroNet博客及论坛文本抓取及分析方法。
背景技术
随着网络信息数据的深化暗化,不法分子利用网络技术,隐藏个人身份,匿名发布及传播不发信息。而ZeroNet作为新型的暗网网络,采用完全分布式的网络架构,利用区块链技术对站点内容和用户信息进行签名验证。网络中任何用户节点既可以作为客户端,也为其他节点提供网络服务。用户构建的服务站点一旦被其他在线节点访问或者分享,即时创建者下线,也依然可被其他用户访问,网站内容理论上无法彻底删除。同时,ZeroNet网络提供Tor网络的支持,使得其用户更加隐蔽。因此,ZeroNet中充斥着大量不法内容,其中文本内容主要集中在论坛网站及博客网站中。
针对ZeroNet文本内容进行抓取及分析,以及实现相应的分析系统,目前在学术界和工业界鲜有研究。
ZeroNet是一种抗审查的P2P网络,其网站的工作方式与互联网中的常见网站不同。在ZeroNet中,每个用户在访问网站时都会首先从拥有网站数据的对等节点下载或更新网站数据并保存在本地,接着解析保存的本地数据生成网页,同时也可以选择成为网站服务的提供者。由于ZeroNet的特殊工作模式,且网站之间的网页元素有一定差别,难以通过通用爬虫的方法获取全部网站文本数据。
发明内容
为了解决上述问题,本发明针对ZeroNet特有的工作原理,提出一种ZeroNet博客及论坛文本抓取及分析方法,对ZeroNet中博客及论坛网站的文本内容进行抓取,并对抓取下的文本进行建模并进行分类。同时基于建模结果可以预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。由于ZeroNet使用增量更新的模式,本发明支持根据内容的发布时间获取某个时间后的新发布内容,从而实现对内容的增量更新与收集。
本发明的一种ZeroNet博客及论坛文本抓取及分析方法,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。
进一步的,在所述获取网站数据之前,先进行初始化过程:
分析ZeroNet中主要导航网站的数据,提取其中的站点地址数据,构建网址数据库。
进一步的,所述获取网站数据包括以下步骤:
步骤11:打开ZeroNet应用及浏览器,利用ZeroNet网络Tracker节点通信协议与初始的Tracker节点建立网络连接以初始化网络环境;
步骤12:读取ZeroNet网址数据库中的博客及论坛网址,模拟真实环境下的访问过程,对博客及论坛网址进行遍历访问,上传访问成功的网站的本地数据存储路径,并标记为已访问;在延时后,继续循环遍历上次遍历中未成功访问的网站,延时时间能够手动设置;在循环固定次数或手动结束后。
进一步的,所述解析本地数据库获取文本内容包括以下步骤:
步骤21:读取成功访问网站的本地数据存储路径,解析路径中包含的网站签名集信息文件,并读取文件中的SQL数据库配置文件路径;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010716026.1/2.html,转载请声明来源钻瓜专利网。