[发明专利]一种基于相似性的半监督学习垃圾网页检测方法无效
申请号: | 201010139921.8 | 申请日: | 2010-04-02 |
公开(公告)号: | CN101814093A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 张卫丰;朱丹梅;周国强;张迎周;陆柳敏;许碧娣;刘霞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似性 监督 学习 垃圾 网页 检测 方法 | ||
技术领域
本发明涉及一种搜索引擎垃圾网页的检测方法,主要解决了小样本条件下的垃圾网页检测问题,属于搜索引擎和半监督机器学习的领域。
背景技术
搜索引擎使得用户能从海量的网页中找到自己感兴趣的、正确的内容。但垃圾网页的盛行损害了搜索引擎的信誉,减弱了其用户的信任。找到一种有效的降低网页垃圾影响,提高搜索引擎网页排名质量的方法,对用户迅速找到感兴趣而且正确的网页有十分重要的意义。
最初,搜索引擎使用传统的信息提取算法,如TF-IDF(词频-逆文档频率)[1],为提交给搜索引擎的查询所返回的结果进行排名。为了提高搜索质量,现在的网页重要性排名大多基于链接图,这个过程称为链接分析。著名的链接分析算法包括HITS[2],PageRank(网页排名)[3,4]以及其它一些算法[5,6,7,8]。此类算法都基于这样的假设,如果一个网页在链接图中有很多重要的网页链向它,那么这个网页也很可能是重要的。为了进一步提高网页排名的有效性和准确性,研究者们又提出了许多改进算法。如针对链接工厂的TrustRank(信任排名)[6]算法在计算网页重要性时考虑了网页的可靠性。但是这些方法都只是针对某种类型的垃圾网页,对新的垃圾网页技术无能为力。
机器学习方法是一种从样本中提取能表征该样本的特征,根据特征的差异对样本进行分类的方法。检测垃圾网页的一种重要途径就是利用机器学习方法对网页进行分类。这种方法可以适应新出现的垃圾网页类型,并取得了不错的效果。但是,传统的机器学习方法实际上是利用已标签数据训练一个目标函数,然后每个未标签的数据由训练得到的目标函数获得一个函数值,若这个函数值大于某个既定阀值则认为它是属于垃圾网页,否则不是垃圾网页。这种方法属于监督学习的范围。然而,数据的标签类别通常需要具有相关知识的熟练的专家才能确定,因此对数据进行标签是费时的,而且代价也很大。用小量的样本训练的分类器通常都是不理想的。应该注意的是,未标签数据是大量存在的。怎样有效地将标签数据和未标签数据结合起来进行半监督学习以提高分类效果,现已成为机器学习中的重要部分。
当前,在垃圾网页检测方面的半监督方法主要是利用网页之间的链接关系,决定本网页是否为垃圾网页时,它的邻居网页(包括链入网页和链出网页)的标签也作为考虑的因素。例如Guang-Gang Geng[7]等人提出的Link training(链接训练法),就是基于链接的小样本学习算法。它遵循的原则是相邻的节点有相似的属性。在链接训练算法中首先用少量的标签数据训练一个分类器。然后用训练好的分类器对大量的未标签数据分类,从而每个未标签的样本都会得到一个预测值PS,表示属于垃圾网页的概率。在链接学习阶段,未标签样本将根据它的邻居计算LS值,表示在参考其邻居的类别后该样本属于垃圾网页的概率。最后,把具有最大LS值的p个样本和最小LS值的n个样本分布作为垃圾网页和非垃圾网页加入到标签集中。这个训练过程将会进行多次,直到迭代次数到达预设值。这样最终会得到一个扩展的标签数据集。最后,利用扩展后的标签数据集训练最终的分类器。
利用网页链接关系进行半监督学习的方法取得了一定的效果。但是,若在一个垃圾网页通过增加对权威网页的链接来增加自身重要性等的情况下,这种方法就失效了,相邻的网页并没有相似的属性。而且这种方法往往需要多次迭代以扩展训练集,较为费时。本发明所涉及到的一种基于调和函数的半监督学习垃圾网页检测方法,正是为解决此问题而开展进行的。目的是根据网页间相似性,建立一个隐含的“链接”关系图,在这个隐含的关系图上进行半监督学习,提高机器学习检测垃圾网页的性能。
参考文献:
[1]SALTON,G..Developments in automatic text retrieval.Science 253,974-980,1991.
[2]J.M.Kleinberg.Authoritative sources in a hyperlinked environment.In SODA’98,pages 668-677,Philadelphia,PA,USA,1998.
[3]S.Brin,L.Page.The anatomy of a large-scale hypertextual Web search engine.Computer Networks and ISDN Systems,30(1-7):107-117,1998.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010139921.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分层次的电路提取方法
- 下一篇:具有不连续电阻链的触控面板