[发明专利]基于云端的网站首页结构监测方法有效
申请号: | 202110059739.X | 申请日: | 2021-01-18 |
公开(公告)号: | CN112765601B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 李传咏;卢颖;赵莉;陈宁;张亮 | 申请(专利权)人: | 西安博达软件股份有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F16/958 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 王营超 |
地址: | 710077 陕西省西安市高*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 云端 网站 首页 结构 监测 方法 | ||
1.一种基于云端的网站首页结构监测方法,其特征在于,包括如下方法步骤:
S1、添加域名:确定要监测的网站和网站域名;
S2、进行采集:间隔预设的时间访问一次S1中的网站首页,使用HttpClient请求S1中的网页域名,保存首页网页源代码;
S3、进行保存:将S2中保存的首页网页源代码中的文字、IMG标签的src属性、A标签的href属性、SCRIPT标签中的src属性过滤掉只保留标签,从而生成首页标签代码文件,整个生成文件的过程称为一次数据样本采集;
S4、进行计算:检查S3样本采集记录中是否存在当前网站首页的记录;
如果不存在,则记为第一次采集,将采集下来的首页图片、首页网页代码、首页标签代码分别存储在首页标签代码历史目录、首页网页源代码历史目录下,然后记录样本采集记录;
如果存在,则将采集下来的首页标签代码、首页网页源代码与对应历史文件进行相似度计算;
S5、进行判断:通过计算相似度:
如果首页标签代码相似度大于预设的值A且首页网页代码相似度大于预设的值B,说明网站首页结构未发生改变,保存本次集采的文件至对应的目录,本次检测结束;
否则,则说明网站首页结构存在变化的风险,则给对应的网站管理员发送消息进行确认;
其中,所述首页标签代码相似度计算方法如下:
S411、以本次采集的首页标签代码中的标签N[i]和上一次采集的首页标签代码中的标签O[j]为两个维度生成二维矩阵L,其中记N的长度为m,O的长度为n;
S412、判断S411中的矩阵L的行列数是否相等,即m和n是否相等,记标签变化数量为k;
S413、判断S411中的矩阵L是否为对称矩阵,即以主对角线为对称轴,各元素对应相等的矩阵,记矩阵L上下三角的元素之和为s;
S414、记矩阵L的对角线元素之和为c;
统计矩阵L对角线为0的元素之和为p,
S415、计算页面标签相似度f1为:
2.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S411二维矩阵L中如果两个标签相同则记录矩阵元素L(i,j)为1,如果两个标签不相同则记录矩阵元素L(i,j)为0。
3.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S412中m和n的判断标准为:
如果m=n,则k=0;
如果m≠n,则k=|m-n|。
4.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S413中L是否为对称矩阵的判断结果为:
如果L是对称矩阵,则s=0;
如果L不是对称矩阵,则
5.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述首页网页源代码相似度计算方法如下:
S421、按照本次采集的首页标签代码结构将本次采集首页网页源码和最近一次采集到的首页网页源码中的标签替换成空字符串,将空格和换行液体换成空字符串,只保留文本内容,分别记为本次采集首页文本内容NC,和最近一次采集首页文本内容OC;
S422、查找本次采集首页文本内容NC和最近一次采集首页文本内容OC的公共字符串,计算公共字符串的总长度;
S423、记本次采集首页文本内容NC的长度为S1,和最近一次采集首页文本内容OC的长度为S2,则首页源码相似度fc为:
6.根据权利要求1所述的基于云端的网站首页结构监测方法,其特征在于,所述S5内A和B具体包括首页标签代码相似度fl98%、首页网页代码相似度fc70%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安博达软件股份有限公司,未经西安博达软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110059739.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗形变夹层密封胶条
- 下一篇:气体阀门及压缩机