[发明专利]一种ZeroNet博客及论坛文本抓取及分析方法在审
申请号: | 202010716026.1 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111814068A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 过小宇;丁建伟;孙恩博;陈周国;黎艺泉;谢相菊 | 申请(专利权)人: | 中国电子科技集团公司第三十研究所 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘凯 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及信息安全技术领域,本发明公开了一种ZeroNet博客及论坛文本抓取及分析方法,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。本发明使用解析本地数据库的方式获取博客及论坛网站的文本数据,克服了传统爬虫无法获取ZeroNet网站全部文本内容的缺陷。本发明使用半监督LDA主题模型进行建模分析,可以根据不同应用情形进行手动调整,具有较高的精确度和灵活性。 | ||
搜索关键词: | 一种 zeronet 博客 论坛 文本 抓取 分析 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所,未经中国电子科技集团公司第三十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010716026.1/,转载请声明来源钻瓜专利网。