[发明专利]一种基于用户停留时间分析的个性化网页搜索排序方法无效
申请号: | 201110194078.8 | 申请日: | 2011-07-11 |
公开(公告)号: | CN102231165A | 公开(公告)日: | 2011-11-02 |
发明(设计)人: | 徐颂华;江浩;刘智满 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 停留 时间 分析 个性化 网页 搜索 排序 方法 | ||
1.一种基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
2.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所述的自定义浏览器,为用于记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0}.
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间,如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本。
3.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合的步骤为:
c)对用户阅读过的每个网页Di,使用内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在维基百科上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110194078.8/1.html,转载请声明来源钻瓜专利网。