[发明专利]一种垃圾网页识别方法有效

专利信息
申请号: 201710558799.X 申请日: 2017-07-11
公开(公告)号: CN107545179B 公开(公告)日: 2020-06-19
发明(设计)人: 董一鸿;金宏桥;李龙洋 申请(专利权)人: 宁波大学
主分类号: G06F21/56 分类号: G06F21/56
代理公司: 宁波诚源专利事务所有限公司 33102 代理人: 徐雪波;邓青玲
地址: 315211 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合特征、网页标签特征进行组合,使用随机森林对组合特征集进行训练,得到四个训练模型;将未识别网页的有向图三角特征与未识别网页的链接特征、链接组合特征进行组合,四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果。本发明的优点在于:使用有向图三角特征提高了垃圾网页识别的准确率。
搜索关键词: 一种 垃圾 网页 识别 方法
【主权项】:
一种垃圾网页识别方法,其特征在于:包括以下步骤:步骤(1)、从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,训练集中包括已识别网页中的链接特征、链接组合特征和网页标签特征,其中网页标签特征包含垃圾网页特征和非垃圾网页特征;步骤(2)、统计训练集中每个训练网页对应的有向图三角的数目,将每个训练网页对应的有向图三角的数目作为该训练网页的有向图三角特征;步骤(3)、将步骤(2)中得到的训练网页的有向图三角特征与训练集中对应训练网页的链接特征、链接组合特征、对应网页标签特征进行组合,得到训练网页的包含链接特征和网页标签特征的第一组合特征集,包含链接特征、有向图三角特征和网页标签特征的第二组合特征集,包含链接组合特征和网页标签特征的第三组合特征集,包含链接组合特征、有向图三角特征和网页标签特征的第四组合特征集;使用随机森林模型对上述得到的四组组合特征集分别进行训练,分别得到训练网页的第一训练模型、第二训练模型、第三训练模型和第四训练模型;步骤(4)、提取未识别网页的链接特征和链接组合特征;步骤(5)、统计未识别网页对应的有向图三角的数目,将未识别网页对应的有向图三角的数目作为该未识别网页的有向图三角特征;步骤(6)、将步骤(5)中得到的未识别网页的有向图三角特征与未识别网页的链接特征、链接组合特征进行组合,得到未识别网页的包含链接特征的第一测试组合特征集,包含链接特征和有向图三角特征的第二测试组合特征集,包含链接组合特征的第三测试组合特征集,包含链接组合特征和有向图三角特征的第四测试组合特征集;将得到的四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果,如果四个网页标签特征测试结果中有一半以上的结果为垃圾网页特征,则将该未识别网页的网页标签特征赋值为垃圾网页特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710558799.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top