[发明专利]复杂网络中节点重要性在垃圾网页检测中的应用方法有效
申请号: | 201810637788.5 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108984630B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 罗韬;刘伟;喻梅;徐天一;赵满坤;郭佳 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/332 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂 网络 节点 重要性 垃圾 网页 检测 中的 应用 方法 | ||
1.一种复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,包括如下步骤:
1)数据预处理,是把已知的特征数据进行规范化,将数据压缩到一个范围内,赋予所有属性相等的权重,对数据进行规范化,消除量纲对数据后续计算的影响;规范化后使用PCA算法进行特征提取,减少特征维数,使新的空间维度低于原特征空间;
2)计算网页之间链接的权重与网页的介数指标,并将介数指标与所述的权重融合计算出每个网页的重要性评分;
3)根据重要性评分进行排序,选取评分最高和最低的网页共同构成种子集,并对每个网页赋予信任度初值;
4)计算集聚系数,将集聚系数高于阈值的网页作为可以信任的网页;
所述的集聚系数的计算公式如下:
式中,k为节点i的所有入链之间互相连接的边的个数,IN(i)为节点i的所有入链的节点的个数,即节点i的入度,ClusterCoefficient(i)为节点i的集聚系数;
5)计算信任度转移矩阵;
集聚系数评估完成后,开始进行差异化地信任值分裂,也就是计算信任度转移矩阵:
其中,θ(u)为网页u的出链集合,为网页u的出链网页中集聚系数高的网页的出链数,网页u的其它出链数之和,O(i)表示网页i的出链数,CC是根据集聚系数评估出的可以信任的网页集合,TC(i,u)为信任度转移矩阵的第i行第u列;
6)利用转移矩阵TC迭代计算CTRank得分,将收敛后的CTRank得分进行排序,根据CTRank得分排序结果确定垃圾网页;
所述的利用转移矩阵TC迭代计算CTRank得分,是采用下式:
cti=α·TC(i)·cti-1+(1-α)·d
其中,α代表衰减因子,TC(i)为第i次迭代的转移矩阵,d是初始被分配的信任值,cti为网页第i次迭代的CTRank得分。
2.根据权利要求1所述的复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,步骤1)所述的规范化是采用z-score规范化的计算公式:
式中,是属性A的平均值,σA表示属性A的标准差,νi表示第i个数据在属性A上的值,νi′是经过规范化后第i个数据在属性A上的值;
使用z-score规范化处理特征向量后,使所有特征数据的取值范围都在0至1之间,消除量纲对数据后续计算的影响。
3.根据权利要求1所述的复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,步骤2)所述的计算网页之间链接的权重,采用下式:
式中,disti,j代表从网页i到网页j之间的欧式距离,wi,j为计算过后得到的从网页i到网页j的权重值;
步骤2)所述的介数指标为:
式中,σst(v)是从s到t且通过点v的最短路径数,而σst是从s到t的最短路径的总数,每个路径的终点也被算作路径的一部分;bcc(v)是点v的介数指标值;把所有网页带入上式即得到每个网页的介数指标值;
步骤2)所述的重要性评分是这个网页的全部出链网页的介数指标值乘以对应链接的权重值的和,然后加上这个网页自身的介数指标值,如下式所示:
其中,BCW(i)为网页i的最终的重要性评分,wi,j为网页i到网页j的链接的权重值,bci为网页i的介数指标值,n为网页i的出链数。
4.根据权利要求1所述的复杂网络中节点重要性在垃圾网页检测中的应用方法,其特征在于,步骤3)具体是将网页按照重要性评分从大到小排序,将重要性评分最高的网页作为信任的种子,将重要性评分最低的网页作为垃圾的种子,并共同组成种子集,之后对所有网页赋予信任度初值,将信任的种子赋予正值,垃圾的种子赋予负值,而其它的网页赋予0,具体计算公式如下:
其中W为垃圾种子,v为垃圾种子的个数,T为信任种子,u为信任种子的个数,di为网页i的信任度初值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637788.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型训练方法及系统
- 下一篇:一种大数据的生成及调用方法和装置