[发明专利]基于用户浏览行为的网页描述文档构建方法及装置有效

申请号：	201010109570.6	申请日：	2010-02-09
公开（公告）号：	CN101789017A	公开（公告）日：	2010-07-28
发明（设计）人：	周博;刘奕群;张敏;金奕江;马少平;茹立云;杨磊	申请（专利权）人：	清华大学;北京搜狗科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户浏览行为网页描述文档构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网信息检索技术领域，特别涉及一种基于用户互联网浏览行为的网页描述文档构建方法及装置。

背景技术

随着网络的不断普及，搜索引擎已经成为用户从互联网中获取知识的主要手段。目前，用户与搜索引擎进行交互的方式主要是：用户将所要寻找的信息转换成查询词，再将这些查询词提交搜索引擎，最后由搜索引擎完成信息的检索并提交给用户。

然而，用户输入的查询词往往长度有限，据统计，目前搜索引擎所接受查询词的平均长度只有2-3个字。搜索引擎有时很难从2-3个字长度的查询清楚的推测出用户实际的信息需求。因此，为了提升搜索引擎的性能，更好的满足用户的信息需求，目前搜索引擎主要通过两种方式弥补用户输入查询词的信息缺失。

第一种方式是查询扩展，即通过各种已经具备的知识或者数据挖掘出的知识对用户输入的查询词进行扩展，使得扩展后的查询能够更加清晰的描述用户的信息需求，从而提升搜索引擎的检索性能。

另一种方式是构建网页描述文档，即通过各种已经具备的知识或者数据挖掘出的知识构建网页的描述文档，其中网页描述文档一般需要具备能够描述网页主要内容或者主题思想的性质。网页描述文档可以有效增加目标网页与用户查询匹配的概率。

目前，构建网页描述文档的技术主要是：通过网页链接文本构建目标网页的网页描述文档，但是这种构建网页描述文档方法存在着以下的缺点：

1)需要首先提取并分析互联网中所有网页的链接文本，该过程会耗费巨大的计算资源与计算开销。

2)网页链接文本只是网页设计者对于目标网页的描述，仅仅体现了网页设计者对于网页主题的认识，这种对于网页的描述在很多情况下与实际用户对于网页的描述不一致。

3)网页设计者对于目标网页的描述不受任何监管，所以利用网页链接文本生成描述文档的方式无法克服网页设计者的可能的作弊行为。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是解决目前通过网页链接文本构建目标网页的网页描述文档所引起的缺陷。

为实现以上目的，本发明一方面提出了一种基于用户互联网浏览行为的网页描述文档构建方法，包括以下步骤：提取用户浏览日志中记录的用户浏览事件，所述用户浏览事件至少包括所述用户的用户ID、用户当前浏览页面、用户点击指向的目标页面和用户导航时所点击的链接文本；根据所述用户浏览事件建立用户浏览链接模型；根据所述用户浏览链接模型生成网页描述文档。

在本发明的一个实施例中，通过以下公式根据用户浏览事件建立用户浏览链接模型：

Pul(R|[a,d])=|ClkIncomPage(a,d)|Σd∈D|ClkIncomPage(a,d)|,]]>

其中，P_ul(R|[a，d])代表网页描述文档中不同链接文本a的权重， ClkIncomPage(a，d)代表所有以a为链接文本以d为目标网页并且被用户点击过的超链接集合，D代表所有网页的集合。

在本发明的一个实施例中，所述用户浏览链接模型确定网页描述文档中各词语的权重。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司，未经清华大学;北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010109570.6/2.html，转载请声明来源钻瓜专利网。

上一篇：硬件密码确认方法
下一篇：一种数据库查询语句的转换方法和转换系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于用户浏览行为的网页描述文档构建方法及装置有效

专利文献下载