[发明专利]一种网页锚文本去噪系统及方法有效
申请号: | 200710308504.X | 申请日: | 2007-12-29 |
公开(公告)号: | CN101216836A | 公开(公告)日: | 2008-07-09 |
发明(设计)人: | 徐建军 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 王黎延 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 文本 系统 方法 | ||
技术领域
本发明涉及网页锚文本处理技术,特别是涉及一种网页锚文本去噪系统及方法。
背景技术
随着互联网技术的飞速发展及广泛应用,从网络中获取各种所需信息已经被大多数网络用户所接受,而且逐渐成为用户日常生活中不可缺少的一部分。为了给用户提供更方便、快捷的查询方式,目前所采用的搜索引擎技术成为互联网使用最频繁的查找资料的工具,具体来说,搜索引擎通常会在某一网页中给出一些可以链接其他相关网页的文字,这些文字是能够描述相关网页内容的关键词,用户可以根据所述关键词的描述进一步点击进入相关网页查找自己所需的资料。例如:当用户输入http://news.sina.com.cn进入新浪网的新闻中心网页时,在网页的不同位置会出现“体育”、“财经”、“音乐”、“科技”,或是“今日天气”、“视频新闻”、“军事论坛”等等关键词,用户如果希望了解体育相关信息就可以选择点击“体育”,进入网址为http://sports.sina.com.cn的网页获取相关体育信息。这里,描述相关网页内容的关键词称为中心词,一个网页中指向另一网页的链接文字称为网页锚文本,多个网页锚文本可以指向同一个链接网址。在上面的例子中,体育、财经、音乐、科技、今日天气、视频新闻、军事论坛等等都可称为中心词;同时,“体育”、“财经”、“音乐”、“科技”、“今日天气”、“视频新闻”、“军事论坛”等分别指向不同的网页,“体育”就是http://sports.sina.com.cn网页的锚文本,“财经”就是http://finance.sina.com.cn网页的锚文本,其它以此类推,分别是所指向网页的锚文本。
从搜索引擎的实际应用可以看出,目前网页提供商所提供的链接网页并不区分年龄、性别,网页的内容更是有好有坏,再加上一些作弊网页的产生,就会在用户进行正常搜索时出现很多无关网页或是垃圾网页,给用户迅速获取信息造成麻烦。例如:用户进入某网页输入关键词后,就可能出现大量网页锚文本,分别指向不同的网页链接,其中就包括部分无关网页或垃圾网页,而用户并不清楚网页锚文本是否与指向网页的实际内容相关,只能通过一一打开每个网页查看其中的内容,进而获取所需信息,这显然给用户造成很多麻烦,且降低了查询效率。显然,通过各种技术去除与指向网页内容不相关的锚文本数据是非常有必要的,这种去除不相关网页锚文本的技术称为网页锚文本去噪。
现有技术中,主要是利用预先设置的过滤词表,从众多网页锚文本中去除包含有过滤词表中出现的过滤词的网页锚文本,以减少无用网页锚文本的出现量。目前,所述过滤词表设置于服务器端,一般是由搜索引擎提供商通过人工方式从大量网页中找出一些过滤规则和过滤词,进行编辑后分类放入过滤词表中,之后利用得到的过滤词表完成网页锚文本去噪。
但是,现有利用过滤词表完成网页锚文本去噪的方法,需要人工分析网页锚文本找出与网页无关的词,然后加入过滤词表中,这种方法不仅效率低,而且无法智能分析网页锚文本中的词是否与网页实际内容相关,无法自动去掉不相关的词。
发明内容
有鉴于此,本发明的主要目的在于提供一种网页锚文本去噪系统及方法,能为用户提供更高质量的网页锚文本数据,进而提高用户的网页搜索效率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种网页锚文本去噪系统,包括语料爬虫系统、原始网页数据库、原始正文数据库,关键在于,该系统还包括语料自动训练单元、锚文本去噪单元、锚文本数据库以及基本词表和中心词表;其中,
语料自动训练单元,用于根据基本词表对原始网页进行迭代训练,分析出网页包含的中心词,并利用得到的中心词更新基本词表和中心词表;
锚文本去噪单元,根据更新的中心词表或基本词表、以及原始正文数据,对原始网页锚文本进行去噪处理,得到过滤后的网页锚文本;
锚文本数据库,用于存储网页锚文本。
其中,所述语料自动训练单元与语料爬虫系统相连,由语料爬虫系统提供原始网页数据。或者,所述语料自动训练单元与原始网页数据库相连,由原始网页数据库提供原始网页数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710308504.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:整机向风浮动基础摆动式风力发电机
- 下一篇:水分子辐射器