[发明专利]基于眼球跟踪的网页图像个性化搜索方法有效
申请号: | 200810121651.0 | 申请日: | 2008-10-23 |
公开(公告)号: | CN101382940A | 公开(公告)日: | 2009-03-11 |
发明(设计)人: | 徐颂华;江浩;刘智满;潘云鹤 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 眼球 跟踪 网页 图像 个性化 搜索 方法 | ||
1.一种基于眼球跟踪的网页图像个性化搜索方法,其特征在于包括以下步骤:
1)利用眼球跟踪装置,获取用户对网页图像关注时间的样本信息;
2)对获取到的用户关注时间样本进行校正;
3)对未知网页图像,运用决策树的方法动态选择合适的图像相似度算法;
4)基于图像相似度来预测未知网页图像的用户关注时间;
5)利用用户关注时间结合传统搜索技术生成个性化的网页图像搜索结果;
所述的利用眼球跟踪装置,获取用户对网页图像关注时间的样本信息步骤包括:
(a)在网页图像搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个网页图像提供缩略图;利用眼球跟踪装置,追踪用户眼球的移动位置,从而来记录用户在某个网页图像缩略图上花的时间;
(b)在被打开的网页图像页面上,记录用户眼球装置在该图像各子区域处移动的时间;设图像I由互不相交的等尺寸的矩形图像子区域R1,R2...Rn构成,每当眼球跟踪装置当前位置位于坐标(x,y)处时,设(xi,yi)为子区域Ri内距离(x,y)最近的点,则子区域Ri的用户关注时间 增加
其中参数σ的值预设为1cm,且i=1,2,……n;
(c)对于此网页图像的关注时间就是观看该图像缩略图的时间加上观看该图像各子区域处的图像页面的时间之和;如果之后用户的眼球跟踪装置又重新在该图像某子区域或缩略图上移动,那么该网页图像的用户关注时间会相应增加;
所述的对获取到的用户关注时间样本进行校正步骤包括:
(d)对获取到的用户关注时间样本通过校正公式
进行校正,其中 是从步骤(a)~(c)中收集到的用户关注时间,tbasic(u)是用户用来判断此图像是否值得一读的时间, 则是校正后的对该网页图像I的用户关注时间;
所述的对未知网页图像,运用决策树的方法动态选择合适的图像相似度算 法步骤包括:
(e)任意挑选5个已有的图像相似度算法A1,A2,...,A5;并从步骤(a)~(d)收集到的样本集中任意挑选其中90%的图像作为训练集,另10%的图像作为测试集;
(f)对训练集与样本集中的每个图像中的每个图像子区域R,提取出特征向量F(R):首先使用已有的非负矩阵的因素分解方法对训练集中的图像子区域进行聚类,每个图像子区域都将获得几个分值,每个分值表示的是该图像子区域对某一聚类集合的依附程度,选择最高的3个依附分值和相应聚类集合编号作为特征向量:
F(R)=(N1(R),f1(R),N2(R),f2(R),N3(R),f3(R))
其中N1(R),N2(R),N3(R)是有最高依附分值的三个聚类集合编号,f1(R),f2(R),f3(R)则是对应的依附分值;
(g)对于训练集与测试集中每个图像子区域R,分别用每个图像相似度算法Ai,i=1,2,……5,预测算法预测它的关注时间,然后分别和真实关注时间进行相减,得到误差error;从A1~A5中找到其中误差error最小的算法Aopt(R);
(h)使用一个决策树来学习每个图像子区域R的特征向量F(R)与具有最小误差error的算法Aopt(R)之间的关系;即以图像特征向量、算法编号分别作为决策树的输入输出,并使用训练集中的样本对决策树进行训练,当决策树的输出在测试集中样本上的平均误差最小时,保存此时的决策树;
(i)用训练好的决策树为未知网页图像Ix中的每个图像子区域选择最合适的图像相似度算法;
所述的基于图像相似度来预测未知网页图像的用户关注时间步骤包括:
(j)用Sim(Ro,Rl)来表示图像子区域R0和图像子区域R1之间的相似度,同时Sim(Ro,Rl)∈[0,1],在计算两个图像子区域的相似度之前,将它们的图像尺寸归一化为同样大小;
(k)把每个已通过眼球跟踪获取到用户关注时间的网页图像子区域样本集表示为{tatt(u,Ri)| i=1,...n},其中n是当前用户阅读过的图像子区域的个数,阅读过的图像子区域表示为Ri(i=1,...,n),当用户遇到一个新的图像Ix的时候,设Ix由矩形图像子区域R1(x),R2(x)...Rm(x)构成,对其中每个图像Rj(x)和样本集中的所有图像进行相似度计算,挑选出k个具有最高相似度的图像,把k设为min(10,m),挑选出来的图像为Ri(i=1,...,k),用以下这个公式来预测Rj(x)的用户关注时间,
其中γ用来控制Sim(Rj(x),Ri)的值占的比重,ε是一个很小的正整数用来防止表达式的分母为0,函数δ(,)用来去除一些相似度非常低的图像,它被定义为:
(1)计算新图像Ix的用户关注时间,使用如下公式:
所述的利用用户关注时间结合传统搜索技术生成个性化的网页图像搜索结果步骤包括:
(m)当用户提交一个查询请求时,服务端首先将查询重定向至传统图像搜索引擎,并获得返回的前n个网页图像,对于返回的每个页面,系统将在该用户的样本集中查找k个与图像相似度最高的样本,并用步骤(j)~(1)中的方法预测该网页图像的关注时间;
(n)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的图像,获得更高的关注时间偏差,用如下公式定义这个偏差
其中rank(I)表示的图像I在传统图像搜索引擎的排序的排名,参数κd用来控制关注时间随排名下降的坡度;
(o)从图像I的关注时间tatt(u,I)和偏差 获得图像I的总关注时间: 参数κoverall是一个用户变量,用来控制该用户希望个性化的排名占的比重;
(p)最终排序将按照总关注时间的倒序排列,生成搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810121651.0/1.html,转载请声明来源钻瓜专利网。