[发明专利]一种垃圾网页识别方法有效
申请号: | 201710558799.X | 申请日: | 2017-07-11 |
公开(公告)号: | CN107545179B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 董一鸿;金宏桥;李龙洋 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 宁波诚源专利事务所有限公司 33102 | 代理人: | 徐雪波;邓青玲 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 网页 识别 方法 | ||
1.一种垃圾网页识别方法,其特征在于:包括以下步骤:
步骤(1)、从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,训练集中包括已识别网页中的链接特征、链接组合特征和网页标签特征,其中网页标签特征包含垃圾网页特征和非垃圾网页特征;
步骤(2)、统计训练集中每个训练网页对应的有向三角形的数目,将每个训练网页对应的有向三角形的数目作为该训练网页的有向三角形特征;
步骤(3)、将步骤(2)中得到的训练网页的有向三角形特征与训练集中对应训练网页的链接特征、链接组合特征、对应网页标签特征进行组合,得到训练网页的包含链接特征和网页标签特征的第一组合特征集,包含链接特征、有向三角形特征和网页标签特征的第二组合特征集,包含链接组合特征和网页标签特征的第三组合特征集,包含链接组合特征、有向三角形特征和网页标签特征的第四组合特征集;使用随机森林模型对上述得到的四组组合特征集分别进行训练,分别得到训练网页的第一训练模型、第二训练模型、第三训练模型和第四训练模型;
步骤(4)、提取未识别网页的链接特征和链接组合特征;
步骤(5)、统计未识别网页对应的有向三角形的数目,将未识别网页对应的有向三角形的数目作为该未识别网页的有向三角形特征;
步骤(6)、将步骤(5)中得到的未识别网页的有向三角形特征与未识别网页的链接特征、链接组合特征进行组合,得到未识别网页的包含链接特征的第一测试组合特征集,包含链接特征和有向三角形特征的第二测试组合特征集,包含链接组合特征的第三测试组合特征集,包含链接组合特征和有向三角形特征的第四测试组合特征集;将得到的四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果,如果四个网页标签特征测试结果中有一半以上的结果为垃圾网页特征,则将该未识别网页的网页标签特征赋值为垃圾网页特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710558799.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铣边开槽一体机
- 下一篇:大型非金属复合材料锥形舱体的加工方法