[发明专利]风险网站宣传主体检测方法、装置、设备、介质有效
申请号: | 202010311366.6 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111541683B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 宋建昌;范渊;杨勃 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 风险 网站 宣传 主体 检测 方法 装置 设备 介质 | ||
本申请公开了一种风险网站宣传主体检测方法、装置、设备、介质,该方法包括:利用网络爬虫技术爬取目标风险网站的网页信息;利用去标签技术,从所述网页信息中确定出目标文本信息;利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;根据所述新词集和所述目标文本信息,确定出宣传主体清单;从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
技术领域
本申请涉及网络安全技术领域,特别涉及一种风险网站宣传主体检测方法、装置、设备、介质。
背景技术
风险网站泛指互联网空间中存在潜在风险的一系列网站,例如:钓鱼网站、赌博网站以及网贷平台网站等,在互联网技术日益发展的同时,经济犯罪逐渐结合互联网演变出一些新型犯罪,由于线上操作隐秘、扩散便利以及可快速复制等,使得发现和打击风险网站变得十分困难。现有技术主要是通过将待检测网站的网站备案以及备案的服务器IP去获取网站的运营主体信息,但在实际情况下,运营主体与实际的宣传主体往往不一致,宣传主题是指风险网站宣传的主题对象,网贷平台网站中的平台名称,钓鱼网站模拟的目标网站名称等。这就导致检测不到实际的宣传主体,宣传主体检测效率低,影响网络安全。
发明内容
有鉴于此,本申请的目的在于提供一种风险网站宣传主体检测方法、装置、设备、介质,能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。其具体方案如下:
第一方面,本申请公开了一种风险网站宣传主体检测方法,包括:
利用网络爬虫技术爬取目标风险网站的网页信息;
利用去标签技术,从所述网页信息中确定出目标文本信息;
利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
根据所述新词集和所述目标文本信息,确定出宣传主体清单;
从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可选的,所述利用去标签技术,从所述网页信息中确定出目标文本信息,包括:
利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。
可选的,所述利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息,包括:
利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息。
可选的,所述利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息,包括:
利用DOM工具对所述网页信息进行结构化;
对结构化后网页信息进行XML元素遍历,以确定出相应的所述标题以及所述网页描述;
对所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签内的目标信息。
可选的,所述根据所述新词集和所述目标文本信息,确定出宣传主体清单,包括:
对所述目标文本信息进行预处理,得到目标词集;
利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单。
可选的,所述利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单,包括:
利用TF-IDF算法从所述目标词集中确定出关键词集;
将所述关键词集和所述新词集确定为宣传主体清单。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010311366.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图像确定照相机瑕疵的方法
- 下一篇:临床训练系统及方法