[发明专利]传销网站宣传地址的获取方法、装置及电子设备在审
申请号: | 201910743972.2 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110442775A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 胡招武;范渊;杨勃 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张磊 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疑似目标 网址 网站宣传 装置及电子设备 检索结果 目标搜索 页面内容 词组 相关度 预设 搜索引擎 网络检测 网站 检索 缓解 发现 | ||
本发明提供了一种传销网站宣传地址的获取方法、装置及电子设备,涉及网络检测领域,首先通过基于多个预设的搜索引擎,对目标搜索词组进行检索,得到多个检索结果;然后基于多个检索结果确定多个疑似目标网址,并获取多个疑似目标网址对应的页面内容;接着基于多个疑似目标网址对应的页面内容分别确定多个疑似目标网址中每个疑似目标网址与目标搜索词组的相关度;最后将相关度达到预设阈值的疑似目标网址确定为传销网站宣传地址。相比于现有的依赖于举报的方式来发现线上传销活动的方法,本发明提供的技术方案,能够缓解现有技术中存在的效率较低的问题,有利于提高传销网站的获取效率。
技术领域
本发明涉及网络领域,具体而言,涉及一种传销网站宣传地址的获取方法、装置及电子设备。
背景技术
传销是指组织者发展人员,通过发展人员或者要求被发展人员以交纳一定费用为条件取得加入资格等方式获得财富的违法行为。
目前,传销的活动方式主要是线下活动,对于线下的传销活动的发现通常是由用户进行举报。
然而,伴随着互联网的发展和普及,传销活动的宣传也从传统的线下活动向线上网站宣传的方向发展,具有高共享性的线上网站已成为传销宣传的重要途径。而依靠传统的举报的方式来发现线上传销活动,效率比较低。
发明内容
本发明的目的包括,例如,提供了一种传销网站宣传地址的获取方法、装置及电子设备,其能够缓解现有技术中存在的获取效率较低的问题。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种传销网站宣传地址的获取方法,包括以下步骤:
基于多个预设的搜索引擎,对目标搜索词组进行检索,得到多个检索结果;
基于多个检索结果确定多个疑似目标网址,并获取所述多个疑似目标网址对应的页面内容;
基于所述多个疑似目标网址对应的页面内容分别确定所述多个疑似目标网址中每个疑似目标网址与所述目标搜索词组的相关度;
将相关度达到预设阈值的疑似目标网址确定为传销网站宣传地址。
在可选的实施方式中,所述目标搜索词组包括按照预设排列规则的传销项目名、搜索分隔符以及网站关键字。
在可选的实施方式中,所述基于多个检索结果确定多个疑似目标网址,包括:
对所述多个检索结果进行初步过滤得到多个待分析结果;
对所述多个待分析结果进行二次筛选得到多个疑似目标网址。
在可选的实施方式中,所述获取所述多个疑似目标网址对应的页面内容,包括:
向所述疑似目标网址发送请求;
接收所述疑似目标网址返回的响应数据;
对所述响应数据进行解析得到页面内容。
在可选的实施方式中,所述基于所述多个疑似目标网址对应的页面内容分别确定所述多个疑似目标网址中每个疑似目标网址与所述目标搜索词组的相关度,包括:
基于tf-idf计算模型以及所述多个疑似目标网址对应的页面内容分别确定所述多个疑似目标网址中每个疑似目标网址与所述目标搜索词组的相关度;其中,所述tf-idf计算模型是基于tf-idf算法构建得到的。
在可选的实施方式中,所述tf-idf算法的计算公式包括:
wi,j=tfi,j×idfi
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910743972.2/2.html,转载请声明来源钻瓜专利网。