[发明专利]基于用户浏览行为的网页描述文档构建方法及装置有效
申请号: | 201010109570.6 | 申请日: | 2010-02-09 |
公开(公告)号: | CN101789017A | 公开(公告)日: | 2010-07-28 |
发明(设计)人: | 周博;刘奕群;张敏;金奕江;马少平;茹立云;杨磊 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 浏览 行为 网页 描述 文档 构建 方法 装置 | ||
技术领域
本发明涉及互联网信息检索技术领域,特别涉及一种基于用户互联网 浏览行为的网页描述文档构建方法及装置。
背景技术
随着网络的不断普及,搜索引擎已经成为用户从互联网中获取知识的 主要手段。目前,用户与搜索引擎进行交互的方式主要是:用户将所要寻 找的信息转换成查询词,再将这些查询词提交搜索引擎,最后由搜索引擎 完成信息的检索并提交给用户。
然而,用户输入的查询词往往长度有限,据统计,目前搜索引擎所接 受查询词的平均长度只有2-3个字。搜索引擎有时很难从2-3个字长度的查 询清楚的推测出用户实际的信息需求。因此,为了提升搜索引擎的性能, 更好的满足用户的信息需求,目前搜索引擎主要通过两种方式弥补用户输 入查询词的信息缺失。
第一种方式是查询扩展,即通过各种已经具备的知识或者数据挖掘出 的知识对用户输入的查询词进行扩展,使得扩展后的查询能够更加清晰的 描述用户的信息需求,从而提升搜索引擎的检索性能。
另一种方式是构建网页描述文档,即通过各种已经具备的知识或者数 据挖掘出的知识构建网页的描述文档,其中网页描述文档一般需要具备能 够描述网页主要内容或者主题思想的性质。网页描述文档可以有效增加目 标网页与用户查询匹配的概率。
目前,构建网页描述文档的技术主要是:通过网页链接文本构建目标 网页的网页描述文档,但是这种构建网页描述文档方法存在着以下的缺点:
1)需要首先提取并分析互联网中所有网页的链接文本,该过程会耗费 巨大的计算资源与计算开销。
2)网页链接文本只是网页设计者对于目标网页的描述,仅仅体现了网 页设计者对于网页主题的认识,这种对于网页的描述在很多情况下与实际 用户对于网页的描述不一致。
3)网页设计者对于目标网页的描述不受任何监管,所以利用网页链接 文本生成描述文档的方式无法克服网页设计者的可能的作弊行为。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别是解决目前通过 网页链接文本构建目标网页的网页描述文档所引起的缺陷。
为实现以上目的,本发明一方面提出了一种基于用户互联网浏览行为 的网页描述文档构建方法,包括以下步骤:提取用户浏览日志中记录的用 户浏览事件,所述用户浏览事件至少包括所述用户的用户ID、用户当前浏 览页面、用户点击指向的目标页面和用户导航时所点击的链接文本;根据 所述用户浏览事件建立用户浏览链接模型;根据所述用户浏览链接模型生 成网页描述文档。
在本发明的一个实施例中,通过以下公式根据用户浏览事件建立用户 浏览链接模型:
其中,Pul(R|[a,d])代表网页描述文档中不同链接文本a的权重, ClkIncomPage(a,d)代表所有以a为链接文本以d为目标网页并且被用户点 击过的超链接集合,D代表所有网页的集合。
在本发明的一个实施例中,所述用户浏览链接模型确定网页描述文档 中各词语的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010109570.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硬件密码确认方法
- 下一篇:一种数据库查询语句的转换方法和转换系统