[发明专利]一种网页推荐方法和装置有效
申请号: | 200910236869.5 | 申请日: | 2009-11-04 |
公开(公告)号: | CN102054004A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 方奇;刘奕群;马少平;张敏;金奕江;佟子健;茹立云 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 何文彬 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 推荐 方法 装置 | ||
技术领域
本发明涉及数据挖掘领域,特别涉及一种网页推荐方法和装置。
背景技术
随着计算机技术的发展和Internet因特网的普及,Web网络数据突破传统意义上的数据格式的限制,变得越来越重要,成为Web用户更好的获得信息地一个有效的途径。
Web访问日志数据是记录用户对Web站点访问信息的数据,保存有大量的路径信息,通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。Web访问日志的内容通常包括以下几项:用户IP、Session标识符、用户访问的目标站点URL(Uniform Resource Locator,网页地址)、访问时间、跳转来源等等。用户可以在浏览器地址栏中输入目标网页URL,或点击超链接来搜索得到想要的目标网页。
发明人在实现本发明的过程中发现,现有技术至少存在以下缺点:用户在搜索时,一般需要构造并输入查询词,才能引导搜索引擎完成搜索工作,有时由于获得了一些无关的内容项,使得会获得一些垃圾网站,无法得到用户真正需要的网页。
发明内容
为了使用户能尽快地搜索到自己所需要的网页,得到有价值的推荐网页,减少冗余时间,提高处理效率,提高用户体验,本发明实施例提供了一种网页推荐方法和装置,所述技术方案如下:
一种网页推荐方法,所述方法包括:
获得网页访问记录;
根据网页访问记录获得网页之间的跳转关系信息库;
当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。
所述网页访问记录至少包括用户会话标识,目标网页标识以及所述目标网页的跳转来源网页标识,根据网页访问记录获得网页之间的跳转关系信息包括:
至少基于所述用户会话标识对所述网页访问记录进行分类;
对拥有相同用户会话标识的网页访问记录,根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支,在所述跳转连通分支中,各网页以网页节点的形式存在;
汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库。
所述网页访问记录还包括:从所述跳转来源网页跳转至目标网页的跳转时间;
所述至少根据所述用户会话标识对所述网页访问记录进行分类还包括:对拥有相同会话标识的网页访问记录按照所述跳转时间递增的顺序进行排序;
所述根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支还包括:在建立所述跳转连通分支的过程中,参考所述跳转时间对特定的网页跳转记录进行筛选。
所述汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库包括:
同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树;
汇集所述各有向树构建代表网页跳转关系的点击树模型,所述点击树模型成为网页之间的跳转关系信息库。
所述汇集各有向树构建代表网页跳转关系的点击树模型包括:
汇集所述各有向树构建网页跳转关系森林;
为所述构建的网页跳转关系森林添加虚拟根节点,形成点击树模型。
所述方法还包括:根据快速检索需要,对所述网页跳转关系信息库进行优化。
所述根据快速检索需求,对所述网页跳转关系信息库进行优化包括:
为所述点击树模型中的所有不同的节点建立索引指针,所述索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点;
为所述点击树模型中的每一个节点添加一个链接指针,所述链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。
在所述跳转关系信息库中各网页以网页节点的形式存在,所述根据所述网页之间的跳转关系信息库为用户进行网页推荐包括:
获得用户当前访问的网页的第一网页标识;
在所述跳转关系信息库中查找所述第一网页标识对应的至少一个第一网页节点,所述第一网页节点的标识与所述第一网页标识相同;
在所述跳转关系信息库中查找从所述第一网页节点经过至少一跳而跳转到的后续网页节点,所述查找到的后续网页节点构成所述第一网页的推荐网页候选集;
根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐。
根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910236869.5/2.html,转载请声明来源钻瓜专利网。