[发明专利]复杂网络中节点重要性在垃圾网页检测中的应用方法有效
申请号: | 201810637788.5 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108984630B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 罗韬;刘伟;喻梅;徐天一;赵满坤;郭佳 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/332 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂 网络 节点 重要性 垃圾 网页 检测 中的 应用 方法 | ||
一种复杂网络中节点重要性在垃圾网页检测中的应用方法:数据预处理,是把已知的特征数据进行规范化,规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;计算信任度转移矩阵;利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。本发明可以有效检测垃圾网页,并取得明显效果,可以使垃圾网页的排名降低。
技术领域
本发明涉及一种网页检测。特别是涉及一种复杂网络中节点重要性在垃圾网页检测中的应用方法.
背景技术
目前在相关技术中主要有以下两类:一类是PageRank链接分析网页计算方式,这个方法是基于链接结构的十分经典的计算方法。现有的许多的链接结构的排序算法都是基于此改进的。PageRank技术是根据入链数量多以及质量高的网页来排序的,即根据它们计算每个网页的PageRank值,然后根据这个值的大小把每个网页进行重要性排序。其思路是通过模拟一个普通的上网者进行的,上网者可能随机选择打开一个网页去浏览该网页,然后再跳转到与该网页有链接关系的其它网页,如此这样浏览下去,PageRank主要完成了计算平常人在上网时查阅每个网页可能性的情况。PageRank算法常常通过迭代的方法来完成,迭代完成后,其值会在某一点收敛。PageRank算法虽然在搜索引擎中受到欢迎,但是仍存在一定的缺陷。缺陷之一,PageRank算法仅仅将排序作为划分的标准,评判过程简单粗糙;缺陷之二,PageRank显然对于建立时间较长的网页带来的益处更多。因为如果在很早的时候就将网页建成,则随着时间的流逝,它在推荐性方面有很大的优势。但是,PageRank技术的局限性会导致网页最后的排名不一定准确。因为评定的网页质量未必就是真实的质量,无法进行衡量,只能按照一定的标准进行计算。
另一类TrustRank算法也是一种基于链接关系的排名算法。采用TrustRank算法计算排名顺序,可以有效阻止操纵排名、提升搜索结果质量的作弊手段。使用这一技术,可以使垃圾网页制造者们难以在较短的时间里改变排名顺序,所以排名的质量得以提高。它主要是利用部分网页的信任值,来判断其它的网页,网页的TrustRank值越大,说明它的质量越好。但是,随着科学技术的飞速发展,很多垃圾网页的制造者的作弊手法也同步地日新月异。比如,在一些高质量的网页的评论区随意粘贴自己的垃圾网页的网址,由此,就可以利用TrustRank算法假设存在的漏洞来提高自己的排名。
发明内容
本发明所要解决的技术问题是,提供一种基于介数指标和集聚系数的垃圾网页检测算法的复杂网络中节点重要性在垃圾网页检测中的应用方法。
本发明所采用的技术方案是:一种复杂网络中节点重要性在垃圾网页检测中的应用方法,包括如下步骤:
1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;
2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;
3)根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;
4)计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;
5)计算信任度转移矩阵;
6)利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序。
步骤1)所述的规范化是采用z-score规范化的计算公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637788.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型训练方法及系统
- 下一篇:一种大数据的生成及调用方法和装置