[发明专利]一种基于非概率模型的垃圾网页降级方法在审
申请号: | 201910172890.7 | 申请日: | 2019-03-07 |
公开(公告)号: | CN109902236A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 黎照西 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 垃圾 网络图 降级 概率模型 邻接表 标注 迭代算法 降序排序 节点排序 排序结果 搜索引擎 算法收敛 网络爬虫 最大可能 构建 跳转 解析 分类 概率 传播 赋予 | ||
1.一种基于非概率模型的垃圾网页降级方法,其特征在于,包括步骤:
S100,通过网络爬虫爬取网页并对其内容进行解析,获取网页URL列表;
S200,根据获得的URL列表计算得到节点邻接表;
S300,根据节点邻接表构建节点网络图;所述节点网络图结构为G=(V,E),G为有向无权图;其中,V为所有节点的集合,E为所有边的集合;如果节点vi存在,且存在由节点vi指向节点vj的链接,则有<vi,vj>∈E;对于任意节点vi,指向自己的链接不包含在E中,即
S400,采用PageRank算法对节点网络图中节点进行排序,对排名靠前的网页依次分类标注,所述分类标注包括正常网页和垃圾网页;
S500,对已标注的网页赋予评分初始值和跳转概率初始值;采用迭代算法进行值传播,直到算法收敛,获得节点评分值;包括步骤:
对每一个节点vi,记G(vi)表示其正向排序值,B(vi)表示其逆向排序值,In(vi)表示vi的父节点集合,Out(vi)表示vi的子节点集合;
采用迭代算法计算每个节点的G(vi)和B(vi),计算公式为:
其中,
G(vi)和B(vi)的初始值由IG(vi)和IB(vi)计算;λ取值0.85;算法迭代次数为100次;Sn为正常网页集合,Ss为垃圾网页集合;
S600,根据所述节点评分值对节点网络图中所有节点进行降序排序,得到页面的最终排序结果。
2.根据权利要求1所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,将所获取网页的URL链接和其链出的URL链接以邻接表的形式存储在数据库中。
3.根据权利要求1所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,在所述步骤S400中,对排名靠前的网页依次分类标注,包括步骤:
从排名最高的节点开始,依次进行标注,直到标注的正常网页和垃圾网页数量均不少于100个;标注后的正常网页集合为Sn,垃圾网页集合为Ss。
4.根据权利要求1所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,根据所述节点评分值对节点网络图中所有节点进行降序排序时,节点vi的G(vi)和B(vi)用来作为节点是正常网页和垃圾网页的非归一化概率近似值;若G(vi)越大,则节点vi是正常网页的可能性越大;若B(vi)越大,则节点vi是垃圾网页的可能性越大。
5.根据权利要求4所述的一种基于非概率模型的垃圾网页降级方法,其特征在于,在采用迭代算法进行值传播的过程中,源节点传播的值经过两次衰减,一次衰减使用源节点的信息,一次衰减使用目标节点的信息,计算过程为:
节点vi的不衰减传播值为:
节点vi为正常页面的概率为:
节点vj为正常页面的概率为:
若vi,vj∈E,则将p(vi)和p(vj)作为衰减因子得到节点vi传播给节点vj的值为:
其中,|out(vi)|为节点vi的子节点数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技有限公司,未经成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910172890.7/1.html,转载请声明来源钻瓜专利网。