[发明专利]传销推荐人网站识别方法、装置及设备在审
申请号: | 201811007473.9 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109101657A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 罗青云;范渊;莫金友 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王文红 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站识别 页面数据 页面 装置及设备 网站 分类技术 获取目标 目标网站 遍历 网络 分析 | ||
本发明提供了一种传销推荐人网站识别方法、装置及设备,属于网站识别分类技术领域。本发明提供的传销推荐人网站识别方法、装置及设备,通过获取目标网站所包含的页面数据,然后从页面是中提取一级页面和二级页面的页面数据,再遍历一级页面和二级页面的页面数据,进行传销推荐人网站识别,该方法通过对一级页面和二级页面的页面数据进行分析,进而准确判断目标网站是否为传销推荐人网站,解决了无法准确识别传销推荐人网站的问题,同时为阻止网络传销行为作了有效的贡献。
技术领域
本发明涉及网站识别分类技术领域,具体而言,涉及一种传销推荐人网站识别方法、装置及设备。
背景技术
随着互联网的发展,互联网已经进入了各个领域。然而同样随着而来的是,互联网也被一些传统的非法行业所使用,如用来贩卖枪支、毒品,经营赌博及网络传销等。
针对传销的分析特性看来,传销都是进行上下级的关联,通过拉人头的方式实现不限制级别的分润体系,进而从中进行获利,随着传销规模的增大,已经通过网络进行传销,促使传销行为更加猖狂。但是,现阶段对于推荐人相关网站的分析未达到精准化,未能成形成有效的的分析,不能准确识别传销网站和阻止网络传销行为。
发明内容
针对上述现有技术中存在的对于推荐人相关网站的分析未达到精准化,未能成形成有效的分析,依然存在不能准确识别传销网站和阻止网络传销行为问题,本发明提供了一种传销推荐人网站识别方法、装置及设备,可以准确识别推荐人网站,进而阻止网络传销行为。
第一方面,本发明实施例提供了一种传销推荐人网站识别方法,其中,包括:
获取目标网站所包含的页面信息;
从所述页面信息中提取一级页面和二级页面的页面数据;
遍历所述一级页面和二级页面的页面数据,进行传销推荐人网站识别。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,从所述页面信息中提取一级页面和二级页面的页面数据的步骤,包括:
判断所述一级页面和二级页面的页面数据中是否存在节点数据;
如果是,获取form表单节点数据;其中,所述form表单节点数据为从所述一级页面和二级页面的页面数据中提取的。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述获取form表单节点数据的方法,还包括:
采用依次向上递归解析的方式,获取所述一级页面和二级页面的页面数据中存在的所有节点数据。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,遍历所述一级页面和二级页面的页面数据,进行传销推荐人网站识别的步骤,包括:
提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息;其中,所述关键字信息包括:推荐人、推荐码、邀请人及邀请码;
将所述关键字信息进行正则匹配;
如果匹配成功,则确定所述目标网站为传销推荐人网站。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述遍历一级页面和二级页面的页面数据,进行传销推荐人网站识别的步骤之前,所述方法还包括:
对所述一级页面和二级页面的页面数据进行文字标点切割。
第二方面,本发明实施例还提供了一种传销推荐人网站识别装置,其中,包括:
获取模块,用于获取目标网站所包含的页面信息;
提取模块,用于从所述页面信息中提取一级页面和二级页面的页面数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811007473.9/2.html,转载请声明来源钻瓜专利网。