[发明专利]一种网络关键资源页面的自动定位方法有效

专利信息
申请号: 200710098531.9 申请日: 2007-04-20
公开(公告)号: CN101105801A 公开(公告)日: 2008-01-16
发明(设计)人: 岑荣伟;刘奕群;张敏;金奕江;马少平 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北京市100*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 关键 资源 页面 自动 定位 方法
【说明书】:

技术领域

发明属于互联网信息处理领域,特别是涉及一种基于用户行为分析、挖掘的网络关键资源页面定位的自动化处理方法。

背景技术

搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。搜索引擎通过被称为网络爬行器的工具进行信息搜索,用索引器对抓取的信息进行整理,进而使用查询器进行用户查询,并返回相关结果列表,提供相关信息以满足用户的查询需求。

从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自己查询需求的关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击查找所需要的信息。

网络关键资源页面可以理解为是关于查询主题权威可信,且对用户获取信息最有用的页面。根据文本检索会议TREC(Text Retrieval Conference)网络信息检索部分的权威定义,关键资源页面应当是某个关键站点的入口页面,此站点提供了关于某个主题的可靠信息(这里的入口页面不一定是通常意义上的“主页”,它可能是大规模站点的接入页面,也可能是某个子站点或者某一类页面集合的接入页面)。因此,关键资源页面之所以关键,是因为它提供给用户一个源于某个主题的可靠信息入口。用户通过关键资源页面,可以比较快捷的查找到所需要的信息。同时,某个主题的关键资源页面数要比其相关页面数少得多(相关页面动辄成百上千,而关键资源页面往往只有几个到十几个),这也方便用户将注意力集中到少数一些与自己的查询主题最贴切的页面上。

当前网络信息检索中超过80%的检索需求可以用关键资源查找技术加以实现,在这一大部分检索需求中,只有关键资源页面是查询用户所需要的结果。因此,自动准确地查找某一查询主题下的关键资源对于网络信息检索工具提高其信息收集的有效性十分重要,其定位技术也成为了网络信息检索研究和应用中的重点考察问题之一。反映在国际信息检索研究最高水平的美国计算机学会情报检索专业组SIGIR(International ACM SIGIR Conference onResearch and Development in Information Retrieval)会议上,关键资源查找技术无论从论文数目还是质量来看,一直都是近年讨论的热点。查找关键资源,是当前网络信息检索的发展热点,也已经获得了一些卓有成效的理论研究和实验结果。但总的来说,关键资源定位技术研究的发展还停留在一个比较低的水平上,作为评价标准的前十位结果检索精度(Precision at 10documents,P@10)一直在20%左右徘徊,而表现网络数据不同于普通数据的许多查询无关特征也没有得到充分的考察。

关键资源定位技术按照出发点不同,通常可分为两大类,第一类是从页面角度出发,根据页面特征判断该页面是否为关键资源,如文本内容、超链接关系等。这一类关键资源页面也通常也被称为高质量页面,若其与某查询主题相关时,也被称为检索目标页面;另一类是从需求出发,根据给定的查询主题,从大量的页面中,筛选出该主题相关的页面。两类不同的定位方式有着不同定位方法和应用环境。

第一类主题无关的关键资源定位技术可以通过相关的页面质量评估方式来对页面进行评级,判定是否为关键资源页面,现有的技术主要基于页面之间的超链接关系以及一些页面自身的特征来实现页面的质量评估,已有的技术主要有PageRank、Hits等算法技术。该类技术可应用于搜索引擎的分级索引,检索结果排序等相关环境中,用来提高搜索引擎的检索速度和精确性。

另一类主题相关的定位技术由于直接从用户需求出发,关键资源页面和主题相关联,能大量减少和给定主题无关的页面,大幅度的提高存储页面的有效性和存储资源的利用率。主题相关的关键资源定位技术有很多需求强烈的实际应用,如根据查询主题和关键资源页面架构Web的目录式搜索;对查询主题进行答案标注,进而实现对搜索引擎的评价;应用于返回的查询结果中,提高查询精度等,这些需求和应用都无法通过第一类技术来完成和实现,其关键资源页面必须和特定的主题相关联。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710098531.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top