[发明专利]一种自动发现挖掘Web组件指纹的方法有效
申请号: | 202010197426.6 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111475464B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 陈龙;周双飞;夏书银 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/958 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 发现 挖掘 web 组件 指纹 方法 | ||
1.一种自动发现挖掘Web组件指纹的方法,其特征在于:该方法包括以下步骤:
1)建立网页数据库、网站静态文件数值摘要,即Hash值的特征库、组件源码文件特征库、网站_组件关联库、组件指纹库、待选组件指纹库;
2)采集不同域名下的网站网页数据,存入网页数据库;
3)处理网站数据,有如下步骤:
3.1)计算该网站的JavaScript语言文件、层叠样式表CSS文件和图片的静态文件的Hash值,以及特殊文件路径特征和关键字特征;一个网站具有若干的静态文件数值摘要值,即Hash值、特殊文件路径、关键字特征;
3.2)将上述计算得到的Hash值存入网站静态文件特征库,若该Hash值已存在数据库中,则计数Count增加1;
4)计算各开源组件源码文件中独有的JS文件、CSS文件和图片的静态文件的Hash值,以及特殊文件路径特征和关键字特征,将计算结果存入组件源码文件特征数据库;一个组件具有若干静态文件Hash值;
5)网站静态文件Hash值特征与组件源码文件Hash值比较匹配,有如下步骤:
5.1)从网站静态文件特征库中提取计数一条CountN的Hash值数据,N是大于2的任意自然数字;
5.2)将5.1提取到的Hash值与组件源码文件特征数据库中的Hash值依次进行比较匹配,若两条Hash值相同,则匹配成功;
5.3)若步骤5匹配成功,则将匹配成功的Hash值作为该组件的指纹写入组件指纹库;同时为网站静态文件特征数据库中包含该Hash值的网站打上该组件标识,使组件与网站关联,将关联结果写入网站_组件关联数据库;结束此轮匹配,提取下一条计数CountN的Hash值进行匹配,直到所有计数CountN的Hash值与组件源码文件特征库中的hash值匹配完成;若匹配失败,则转入步骤5.1;
6)从网站_组件关联库中提取某一组件的所有关联网站信息,并从网页数据库中提取相应的网站网页数据;
7)基于上述提取到的组件,提取组件源码文件特征数据库中该组件的特殊文件路径特征与关键字特征,将提取到的特征依次在上述提取到网站网页数据中进行特征匹配;若匹配成功,则将该特征写入待选组件指纹库中,在不同网站网页数据中,每条特征每成功匹配一次,则该特征计数Count增加1;
8)选择待选组件指纹库中命中次数CountM的特征写入组件指纹库,M是大于2的任意自然数字;
所述组件指纹的挖掘方法为:组件源码文件特征中的特殊文件路径、关键字特征在包含该组件的大量网站数据中进行特征匹配;若匹配成功,判断待选组件指纹数据库中是否已存在该特征;若是,则该特征计数Count增加1,若否,则写入待选组件指纹库;
所述特殊文件路径、关键字特征的选取方法为:选取命中次数为复数次的特殊文件路径、关键字指纹写入组件指纹库。
2.权利要求1所述的一种自动发现挖掘Web组件指纹的方法,其特征在于:所述网站静态文件特征包括网站的JavaScript语言文件、层叠样式表CSS文件和图片的静态文件的Hash值。
3.权利要求1所述的一种自动发现挖掘Web组件指纹的方法,其特征在于:所述组件源码文件特征包括组件源码文件中独有的JS文件、CSS文件和图片的静态文件的Hash值,以及特有文件路径特征、关键字特征。
4.权利要求1所述的一种自动发现挖掘Web组件指纹的方法,其特征在于:所述静态文件Hash值是否是组件指纹的判断方法为:将组件静态文件Hash值与在不同网站中复数次出现静态文件Hash值依次进行比较,判断二者的Hash值是否相同;若是,则判定该Hash值为该组件指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197426.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:预处理-声波联用硅块破碎装置和方法
- 下一篇:数据处理方法及服务器