[发明专利]一种识别假冒网页的方法及系统有效
申请号: | 200810239735.4 | 申请日: | 2008-12-16 |
公开(公告)号: | CN101436210A | 公开(公告)日: | 2009-05-20 |
发明(设计)人: | 刘文印;邱彼特;刘罡;张加龙 | 申请(专利权)人: | 北京百问百答网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁 挥;祁建国 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 假冒 网页 方法 系统 | ||
1.一种识别假冒网页的方法,其特征在于,包括以下步骤:
步骤1,针对一给定网页,构造与该给定网页具备关联关系的寄生网页社区;
步骤2,逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数,根据每个网页的寄生因数,判断该给定网页与寄生网页社区中的网页是否存在假冒关系;
其中,该步骤1包括:
步骤11,建立该给定网页的初始关联网页集,该初始关联网页集包括与该给定网页直接关联和/或间接关联的网页;
步骤12,根据该初始关联网页集,进一步获取与初始关联网页具备关联关系的网页,并根据该网页间的关系构建网络图;
步骤13,利用分割算法对该网络图进行分割,以得到与该给定网页具备紧密关联关系的寄生网页社区。
2.如权利要求1所述的识别假冒网页的方法,其特征在于,与该给定网页直接关联的网页包括该给定网页中的链接所指向的网页。
3.如权利要求1所述的识别假冒网页的方法,其特征在于,与该给定网页间接关联的网页包括与该给定网页具备相同或相似的文本和/或视觉信息的网页。
4.如权利要求3所述的识别假冒网页的方法,其特征在于,通过在搜索引擎中搜索该给定网页中的关键词和/或通过视觉搜索获得该间接关联的网页。
5.如权利要求4所述的识别假冒网页的方法,其特征在于,该关键词包括该给定网页的标题、Meta标记和该给定网页中出现的高频单词中的一种或几种。
6.如权利要求1所述的识别假冒网页的方法,其特征在于,步骤12中,通过前向链接和/或反向链接找到与该初始关联网页集关联的网页。
7.如权利要求1所述的识别假冒网页的方法,其特征在于,
该步骤12进一步包括:判断该网络图中是否包括该给定网页,如果不包括,继续执行步骤13,如果包括,表明该给定网页不是假冒网页,结束。
8.如权利要求1所述的识别假冒网页的方法,其特征在于,该分割算法为s-t最小切割算法。
9.如权利要求1至8中任一所述的识别假冒网页的方法,其特征在于,在步骤13之后步骤2之前,还包括:
步骤14,对该初始关联网页集进行修正,然后循环执行步骤12。
10.如权利要求9所述的识别假冒网页的方法,其特征在于,
步骤14进一步包括:判断修正后的初始关联网页集是否发生变化,如果未发生变化,执行步骤2,如果发生变化,循环执行步骤12。
11.如权利要求9所述的识别假冒网页的方法,其特征在于,
步骤13进一步包括:判断该循环执行的次数是否超过一个次数阈值,如果超过,执行步骤2,如果未超过,继续执行步骤14。
12.如权利要求9所述的识别假冒网页的方法,其特征在于,该修正步骤14包括:
向该初始关联网页集添加积极网页和/或删除消极网页;
该积极网页为属于该寄生网页社区,却不属于该初始关联网页集,并且对于该寄生网页社区具有最大入度或出度的网页,或者,该积极网页为属于该寄生网页社区,却不属于该初始关联网页集,寄生因数大于第二预设阈值的网页;
该消极网页为:属于该初始关联网页集并且对于该寄生网页社区的出度与入度的和小于第一预设阈值的网页,或者,该消极网页为属于该初始关联网页集,寄生因数小于第三预设阈值的网页。
13.如权利要求1或12所述的识别假冒网页的方法,其特征在于,所述寄生因数的计算方法为:
其中,PCDij代表网页i对网页j的寄生因数;
Paraij代表网页i对网页j的寄生因子;
Paraji代表网页j对网页i的寄生因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百问百答网络技术有限公司,未经北京百问百答网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239735.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:结合有切线定向驱动装置的往复式刀具
- 下一篇:指用卫生辅助套