[发明专利]恶意网站快速识别方法有效

申请号：	201910177897.8	申请日：	2019-03-10
公开（公告）号：	CN109922065B	公开（公告）日：	2021-03-23
发明（设计）人：	古元;陈耀远;陈思萌;毛华阳;华仲锋;于龙;林飞;王娜;熊翱	申请（专利权）人：	北京亚鸿世纪科技发展有限公司;北京邮电大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F40/284
代理公司：	暂无信息	代理人：	暂无信息
地址：	100095 北京市海淀区高里***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	恶意网站快速识别方法涉及信息安全技术领域。实现本发明的主要步骤包括词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤；实现本发明可以实时、高效地鉴别恶意网站；实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息，从而识别出隐藏性较强的恶意网站；实现本发明可以识别劫持网站，避免将其误判为恶意网站，提高恶意网站检测准确率。
搜索关键词：	恶意网站快速识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.恶意网站快速识别方法，其特征在于包含词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤：1）词库匹配筛选步骤①构建词库编制恶意词语，人工收集100个恶意信息词，包括‘赌博’、‘澳门葡京’、‘av影院’、‘成人色情’；导入维基百科公开的语料；应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语，针对每个恶意词语求取50个近义词，生成扩充的恶意词语；已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库；②网页文本提取由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容；③词库匹配由词库匹配器将网页文本内容与恶意词的词库进行匹配，当网页文本内容包含恶意词的词库中的恶意词时，判定为可疑网站；当网页文本内容未包含恶意词的词库中的恶意词时，判定为正常网站；④将可疑网站的网址作为被测网站传送给JS提取器；2）前端劫持判别筛选①通过JS提取器得到被测网站所有JS数据，：②将被测网站所有JS数据输入远程IP归属地判别器，远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码，当不同IP归属地访问同一网站的同一界面时产生不同跳转时，判定网站遭遇网络劫持；当不同IP归属地访问同一网站的同一界面时产生相同跳转时，判定网站未遭遇网络劫持；③将被测网站所有JS数据输入Referer关键字判别器，Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站，当爬虫去访问时会调用browserRedirect()函数，browserRedirect()函数主要用来实现跳转判断，当browserRedirect()函数调用与直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；④将被测网站所有JS数据输入user‑agent关键字判别器，user‑agent关键字判别器通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站，同时通过web直接访问被测网站，当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当通过ipad、iphone os、midp、ucweb、android等移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；⑤远程IP归属地判别器，Referer关键字判别，user‑agent关键字判别器组成前端劫持判别系统；前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持，前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持，前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器；3）可见区域恶意信息的判别筛选①提取网页可见区域由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合和网站框架源码的JS数据集合，其中包括JS框架F与文本集合D；每个JS框架中都含有标题及若干script元素，提取网页可见区域的具体步骤为：a) 通过Xpath元素定位网页JS框架F中标题的位置，将其作为提取区域的起点，以10个元素为步长确定提取区域的末点，若提取区域大小不足10则以最后一个元素为末点，并求出可见区域的中点；b) 获得可见区域的位置后，便得到可见区域的起点、中点、末点的script元素、、；c) 遍历网页中的n个JS数据集合，寻找相同的script元素、、；d) 当在第i个JS框架中找到了相同元素、、，则提取第i个JS框架中文本内容所对应元素区域的内容至，此部分内容为网页响应的页面显示内容，即为可见区域网页内容d；② 可见区域恶意信息分析a) 建立分类器标注恶意和非恶意网站文本内容的样本x，设网站类别为c={c1，c2}，其中恶意网站为c1，正规网站为c2；训练贝叶斯分类模型，生成分类器，通过分类器可以求出网站文本内容属于两个类别的概率，；b) 对可见区域内容分类将未遭遇劫持的网站的可见区域网页内容d输入分类器中，求得可见区域网页内容d属于恶意网站的概率；；c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容，将不可见区域的文本内容输入分类器，求得不可见区域的文本内容s属于恶意网站的概率，；d) 计算恶意信息评价函数f(s,d)：，式中和为重要性权值，设置=0.7，=0.3；其中；上式中v代表网站中的文本内容，代表文本属于恶意网站类的概率，由分类器求得，用来判断网站文本v是否属于恶意网站c1类所包含的文本；当，则表明网站文本v属于恶意网站c1类，小于0时网站文本v属于正规网站c2类；e) 计算得到网站的恶意信息评分f(s,d)后，由阈值设定器设置阈值thr来判别恶意网站；当f(s,d)大于等于thr时，判定为恶意网站；当f(s,d)小于thr时为正规网站；阈值的默认设置为0.7，阈值可以通过阈值设定器修改。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司;北京邮电大学，未经北京亚鸿世纪科技发展有限公司;北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910177897.8/，转载请声明来源钻瓜专利网。

上一篇：智能锁管理系统
下一篇：一种通信网络中基于时隙特征的动态水印嵌入及检测方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]恶意网站快速识别方法有效

专利文献下载