[发明专利]一种垃圾网页识别方法有效

专利信息
申请号: 201710558799.X 申请日: 2017-07-11
公开(公告)号: CN107545179B 公开(公告)日: 2020-06-19
发明(设计)人: 董一鸿;金宏桥;李龙洋 申请(专利权)人: 宁波大学
主分类号: G06F21/56 分类号: G06F21/56
代理公司: 宁波诚源专利事务所有限公司 33102 代理人: 徐雪波;邓青玲
地址: 315211 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 垃圾 网页 识别 方法
【说明书】:

发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合特征、网页标签特征进行组合,使用随机森林对组合特征集进行训练,得到四个训练模型;将未识别网页的有向图三角特征与未识别网页的链接特征、链接组合特征进行组合,四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果。本发明的优点在于:使用有向图三角特征提高了垃圾网页识别的准确率。

技术领域

本发明涉及网络信息智能处理技术领域,特别涉及一种垃圾网页识别方法。

背景技术

随着互联网的高速发展,搜索引擎是人们利用互联网获取信息的重要的手段,人们在这种以搜索引擎为互联网主要入口的信息获取方式下,高搜索排名带来的高流量和高收益诱使不少网络内容提供者使用作弊方式对搜索引擎算法进行欺诈,以获取较有利的结果排名,而这种使用作弊方式基于欺诈获利的网页就是垃圾网页。垃圾网页的定义为:利用搜索引擎运行算法的缺陷,采取针对搜索引擎的作弊手段,使其获得高于其网络信息质量排名效果以谋求直接或间接利益的网页。随着网络中网页数量的迅速增长,过滤垃圾网页成为一件急需解决的工作。

垃圾网页的产生有一定的规律,比如垃圾网页会链接于垃圾网页,非垃圾网页多链接于非垃圾网页,所以可以根据垃圾网页与其他网页形成的结构和非垃圾网页与其他的网页形成的结构的不同来识别垃圾网页。现有的基于链接的垃圾页面分类,多为基于一层链接数目及其衍生值,垃圾页面过滤准确性有待提高。现有的垃圾网页识别算法往往只针对某些特定类型的垃圾网页,缺乏识别的鲁棒性。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种能够提高垃圾网页识别准确率的垃圾网页识别方法。

本发明解决上述技术问题所采用的技术方案为:一种垃圾网页识别方法,其特征在于:包括以下步骤:

步骤(1)、从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,训练集中包括已识别网页中的链接特征、链接组合特征和网页标签特征,其中网页标签特征包含垃圾网页特征和非垃圾网页特征;

步骤(2)、统计训练集中每个训练网页对应的有向三角形的数目,将每个训练网页对应的有向三角形的数目作为该训练网页的有向三角形特征;

步骤(3)、将步骤(2)中得到的训练网页的有向三角形特征与训练集中对应训练网页的链接特征、链接组合特征、对应网页标签特征进行组合,得到训练网页的包含链接特征和网页标签特征的第一组合特征集,包含链接特征、有向三角形特征和网页标签特征的第二组合特征集,包含链接组合特征和网页标签特征的第三组合特征集,包含链接组合特征、有向三角形特征和网页标签特征的第四组合特征集;使用随机森林模型对上述得到的四组组合特征集分别进行训练,分别得到训练网页的第一训练模型、第二训练模型、第三训练模型和第四训练模型;

步骤(4)、提取未识别网页的链接特征和链接组合特征;

步骤(5)、统计未识别网页对应的有向三角形的数目,将未识别网页对应的有向三角形的数目作为该未识别网页的有向三角形特征;

步骤(6)、将步骤(5)中得到的未识别网页的有向三角形特征与未识别网页的链接特征、链接组合特征进行组合,得到未识别网页的包含链接特征的第一测试组合特征集,包含链接特征和有向三角形特征的第二测试组合特征集,包含链接组合特征的第三测试组合特征集,包含链接组合特征和有向三角形特征的第四测试组合特征集;将得到的四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果,如果四个网页标签特征测试结果中有一半以上的结果为垃圾网页特征,则将该未识别网页的网页标签特征赋值为垃圾网页特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710558799.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top