[发明专利]一种基于身份特征信息的风险网站识别方法及系统有效
申请号: | 202110503642.3 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113225343B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 罗维佳;罗剑芳;李晓琳;肖天梅;莫丽娟;刘子凯;丁卓 | 申请(专利权)人: | 广州掌动智能科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/955 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 510000 广东省广州市天河区中*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 身份 特征 信息 风险 网站 识别 方法 系统 | ||
本发明涉及一种基于身份特征信息的风险网站识别方法及系统,所述基于身份特征信息的风险网站识别方法包括:采集用户当前访问的网站数据;根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;通过有效范围内发现的疑似网站进行分析,能够快速圈定疑似数据集合,提高识别效率。根据所述疑似网站,得到对应网站的多个身份特征信息;将所述疑似网站的各身份特征进行量化处理,得到对应的量化身份特征;根据各量化身份特征,确定对应疑似网站的风险识别结果。通过网页身份特征能够准确判断风险网站,提高了风险网站的识别效率。
技术领域
本发明涉及网络数据分析领域,特别是涉及一种基于身份特征信息的风险网站识别方法及系统。
背景技术
随着4G、5G网络的高速发展,国内的智能手机用户在不断地增长,相关数据显示,截止到2020年3月末,移动互联网的活跃用户总数达到20.13亿,然而移动互联网风险网站数量日益剧增。移动互联网风险网站存在欺诈用户,盗取用户个人信息,钱财等多个方面影响,严重危害社会的正常秩序,其中一些冒充正常的网站会将欺瞒消费者输入手机银行账号密码、用户账号等信息。所以运营商纷纷开始构建威胁网站分析系统,引导用户识别正常的网站。通过利用海量数据进行钓鱼网站挖掘和分析,全面监控和防范虚假网站的传播和爆发。
目前基于网页内容的相似度对网络数据流量的业务检测与识别实际上对网页的元素进行特征挖掘,如统一资源定位器(Uniform Resource Locator,URL)、域名、图片、页面关键词等,通过分类预测计算进行识别。此种方法识别效率较低,对于业务网站识别内容较为复杂。当出现较多内容网站情况时,对识别的效率有一定的影响。
基于上述问题,亟需一种新的网站识别方法以提高风险网站的识别效率。
发明内容
本发明的目的是提供一种基于身份特征信息的风险网站识别方法,可提高风险网站的识别效率。
为实现上述目的,本发明提供了如下方案:
一种基于身份特征信息的风险网站识别方法,所述基于身份特征信息的风险网站识别方法包括:
采集用户当前访问的网站数据;
根据白名单库,对所述用户当前访问的网站数据进行过滤,得到疑似网站;
根据所述疑似网站,确定对应疑似网站的多个身份特征信息;
将所述疑似网站的各身份特征信息进行量化处理,得到对应的量化身份特征;
根据各量化身份特征,确定对应疑似网站的风险识别结果。
可选地,所述白名单库的建立方法具体包括:
采集用户历史上网日志数据集;所述用户历史上网日志数据集包括多个历史网站数据;
根据所述历史上网日志数据集,得到各历史网站的用户访问量及安全度;
根据各历史网站对应的用户访问量及安全度,筛选出用户访问量大于访问量阈值,且安全度大于安全度阈值的历史网站,确定白名单库。
可选地,所述身份特征信息包括统一资源定位器URL身份特征、域名身份特征以及内容身份特征;
所述根据所述疑似网站,确定对应网站的多个身份特征信息,具体包括:
根据所述疑似网站,采用网页爬虫技术,得到对应疑似网站的源码;
根据疑似网站的源码,提取对应的内容身份特征;
根据所述疑似网站,采用字符串匹配和识别算法,提取对应的URL身份特征;
根据所述疑似网站,提取对应的域名身份特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州掌动智能科技有限公司,未经广州掌动智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503642.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置