[发明专利]一种页面超链接检测方法、装置及设备在审
申请号: | 201811051502.1 | 申请日: | 2018-09-10 |
公开(公告)号: | CN110889051A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 朱启明;余成章;施翔 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 超链接 检测 方法 装置 设备 | ||
1.一种页面超链接检测方法,其特征在于,包括:
获取页面中待检测的超链接;
确定所述超链接的对象的第一特征信息和所述超链接指向目标的第二特征信息;
基于所述第一特征信息和所述第二特征信息的匹配关系,确定所述超链接是否异常。
2.根据权利要求1所述的方法,其特征在于,确定所述超链接的对象的第一特征信息包括:
确定所述超链接的对象对应的文本;
对所述文本进行分词处理,获得第一分词集,作为所述第一特征信息。
3.根据权利要求2所述的方法,其特征在于,确定所述超链接的对象对应的文本包括:
确定所述超链接的对象的类型;
若所述对象为文本,则将所述文本作为所述超链接对象对应的文本;
若所述对象为非文本,则解析出所述非文本对应的文本,并将解析的文本作为所述超链接对象对应的文本。
4.根据权利要求3所述的方法,其特征在于,所述非文本为图片;
其中,解析出所述非文本对应的文本包括:
对所述图片进行图像识别处理,获得所述图片中的文本。
5.根据权利要求1所述的方法,其特征在于,所述超链接指向目标为网页;
其中,确定所述超链接指向目标的第二特征信息包括:
确定所述网页标题或所述网页的HTML文件中的文本;
对所述文本进行分词处理,获得第二分词集,作为所述第二特征信息。
6.根据权利要求1所述的方法,其特征在于,基于所述第一特征信息和所述第二特征信息的匹配关系,确定所述超链接是否异常包括:
若所述第一特征信息和所述第二特征信息相匹配,则确定定所述超链接正常;
若所述第一特征信息和所述第二特征信息不匹配,则确定所述超链接异常。
7.根据权利要求6所述的方法,其特征在于,所述第一特征信息和所述第二特征信息均包括一个或多个分词,所述方法还包括:
确定所述第一特征信息中的分词和所述第二特征信息中的分词的匹配度;
若所述匹配度小于预定阈值,则确定所述第一特征信息和所述第二特征信息不匹配。
8.根据权利要求7所述的方法,其特征在于,确定所述第一特征信息中的分词和所述第二特征信息中的分词的匹配度之前,还包括:
基于预生成的分词过滤名单,过滤所述第一特征信息和所述第二特征信息中的分词。
9.一种页面链接检测装置,其特征在于,包括:
获取模块,用于获取页面中待检测的超链接;
第一确定模块,用于确定所述超链接的对象的第一特征信息和所述超链接指向目标的第二特征信息;
第二确定模块,用于基于所述第一特征信息和所述第二特征信息的匹配关系,确定所述超链接是否异常。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于:
确定所述超链接对象对应的文本;
对所述文本进行分词处理,获得第一分词集,作为所述第一特征信息。
11.根据权利要求9所述的装置,其特征在于,所述第一确定模块,还用于:
确定所述页面标题或所述页面的HTML文件中的文本;
对所述文本进行分词处理,获得第二分词集,作为所述第二特征信息。
12.根据权利要求9所述的装置,其特征在于,第二确定模块,具体用于:
若所述第一特征信息和所述第二特征信息相匹配,则确定定所述超链接正常;
若所述第一特征信息和所述第二特征信息不匹配,则确定所述超链接异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811051502.1/1.html,转载请声明来源钻瓜专利网。