[发明专利]传销推荐人网站识别方法、装置及设备在审
申请号: | 201811007473.9 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109101657A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 罗青云;范渊;莫金友 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王文红 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站识别 页面数据 页面 装置及设备 网站 分类技术 获取目标 目标网站 遍历 网络 分析 | ||
2.根据权利要求1所述的方法,其特征在于,从所述页面信息中提取一级页面和二级页面的页面数据的步骤,包括:
判断所述一级页面和二级页面的页面数据中是否存在节点数据;
如果是,获取form表单节点数据;其中,所述form表单节点数据为从所述一级页面和二级页面的页面数据中提取的。
3.根据权利要求2所述的方法,其特征在于,所述获取form表单节点数据的方法,还包括:
采用依次向上递归解析的方式,获取所述一级页面和二级页面的页面数据中存在的所有节点数据。
4.根据权利要求1所述的方法,其特征在于,遍历所述一级页面和二级页面的页面数据,进行传销推荐人网站识别的步骤,包括:
提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息;其中,所述关键字信息包括:推荐人、推荐码、邀请人及邀请码;
将所述关键字信息进行正则匹配;
如果匹配成功,则确定所述目标网站为传销推荐人网站。
5.根据权利要求4所述的方法,其特征在于,所述遍历一级页面和二级页面的页面数据,进行传销推荐人网站识别的步骤之前,所述方法还包括:
对所述一级页面和二级页面的页面数据进行文字标点切割。
6.一种传销推荐人网站识别装置,其特征在于,包括:
获取模块,用于获取目标网站所包含的页面信息;
提取模块,用于从所述页面信息中提取一级页面和二级页面的页面数据;
识别模块,用于遍历所述一级页面和二级页面的页面数据,进行传销推荐人网站识别。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述一级页面和二级页面的页面数据中是否存在节点数据;
节点信息获取模块,用于当所述一级页面和二级页面的页面数据中存在节点数据时,获取form表单节点数据。
8.根据权利要求6所述的装置,其特征在于,所述识别模块还用于:提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息;其中,所述关键字信息包括:推荐人、推荐码、邀请人及邀请码;将所述关键字信息进行正则匹配;如果匹配成功,则确定所述目标网站为传销推荐人网站。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
切割模块,用于对所述一级页面和二级页面的页面数据进行文字标点切割。
10.一种传销推荐人网站识别设备,其特征在于,包括:存储器以及处理器,所述存储器用于存储并支持处理器执行权利要求1~5中任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811007473.9/1.html,转载请声明来源钻瓜专利网。