[发明专利]基于眼球跟踪的网页图像个性化搜索方法有效

申请号：	200810121651.0	申请日：	2008-10-23
公开（公告）号：	CN101382940A	公开（公告）日：	2009-03-11
发明（设计）人：	徐颂华;江浩;刘智满;潘云鹤	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于眼球跟踪网页图像个性化搜索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于眼球跟踪的网页图像个性化搜索方法，其特征在于包括以下步骤：

1)利用眼球跟踪装置，获取用户对网页图像关注时间的样本信息；

2)对获取到的用户关注时间样本进行校正；

3)对未知网页图像，运用决策树的方法动态选择合适的图像相似度算法；

4)基于图像相似度来预测未知网页图像的用户关注时间；

5)利用用户关注时间结合传统搜索技术生成个性化的网页图像搜索结果；

所述的利用眼球跟踪装置，获取用户对网页图像关注时间的样本信息步骤包括：

(a)在网页图像搜索结果页面上，搜索引擎通常会在搜索结果页面上为每个网页图像提供缩略图；利用眼球跟踪装置，追踪用户眼球的移动位置，从而来记录用户在某个网页图像缩略图上花的时间；

(b)在被打开的网页图像页面上，记录用户眼球装置在该图像各子区域处移动的时间；设图像I由互不相交的等尺寸的矩形图像子区域R₁，R₂...R_n构成，每当眼球跟踪装置当前位置位于坐标(x，y)处时，设(x_i，y_i)为子区域R_i内距离(x，y)最近的点，则子区域R_i的用户关注时间增加

其中参数σ的值预设为1cm，且i＝1，2，……n；

(c)对于此网页图像的关注时间就是观看该图像缩略图的时间加上观看该图像各子区域处的图像页面的时间之和；如果之后用户的眼球跟踪装置又重新在该图像某子区域或缩略图上移动，那么该网页图像的用户关注时间会相应增加；

所述的对获取到的用户关注时间样本进行校正步骤包括：

(d)对获取到的用户关注时间样本通过校正公式

进行校正，其中是从步骤(a)～(c)中收集到的用户关注时间，t_basic(u)是用户用来判断此图像是否值得一读的时间，则是校正后的对该网页图像I的用户关注时间；

所述的对未知网页图像，运用决策树的方法动态选择合适的图像相似度算法步骤包括：

(e)任意挑选5个已有的图像相似度算法A1，A2，...，A5；并从步骤(a)～(d)收集到的样本集中任意挑选其中90％的图像作为训练集，另10％的图像作为测试集；

(f)对训练集与样本集中的每个图像中的每个图像子区域R，提取出特征向量F(R)：首先使用已有的非负矩阵的因素分解方法对训练集中的图像子区域进行聚类，每个图像子区域都将获得几个分值，每个分值表示的是该图像子区域对某一聚类集合的依附程度，选择最高的3个依附分值和相应聚类集合编号作为特征向量：

F(R)＝(N₁(R)，f₁(R)，N₂(R)，f₂(R)，N₃(R)，f₃(R))

其中N₁(R)，N₂(R)，N₃(R)是有最高依附分值的三个聚类集合编号，f₁(R)，f₂(R)，f₃(R)则是对应的依附分值；

(g)对于训练集与测试集中每个图像子区域R，分别用每个图像相似度算法A_i，i＝1，2，……5，预测算法预测它的关注时间，然后分别和真实关注时间进行相减，得到误差error；从A₁～A₅中找到其中误差error最小的算法A_opt(R)；

(h)使用一个决策树来学习每个图像子区域R的特征向量F(R)与具有最小误差error的算法A_opt(R)之间的关系；即以图像特征向量、算法编号分别作为决策树的输入输出，并使用训练集中的样本对决策树进行训练，当决策树的输出在测试集中样本上的平均误差最小时，保存此时的决策树；

(i)用训练好的决策树为未知网页图像I_x中的每个图像子区域选择最合适的图像相似度算法；

所述的基于图像相似度来预测未知网页图像的用户关注时间步骤包括：

(j)用Sim(R_o，R_l)来表示图像子区域R₀和图像子区域R₁之间的相似度，同时Sim(R_o，R_l)∈[0，1]，在计算两个图像子区域的相似度之前，将它们的图像尺寸归一化为同样大小；

(k)把每个已通过眼球跟踪获取到用户关注时间的网页图像子区域样本集表示为{t_att(u，R_i)| i＝1，...n}，其中n是当前用户阅读过的图像子区域的个数，阅读过的图像子区域表示为R_i(i＝1，...，n)，当用户遇到一个新的图像I_x的时候，设I_x由矩形图像子区域R₁(x)，R₂(x)...R_m(x)构成，对其中每个图像R_j(x)和样本集中的所有图像进行相似度计算，挑选出k个具有最高相似度的图像，把k设为min(10，m)，挑选出来的图像为R_i(i＝1，...，k)，用以下这个公式来预测R_j(x)的用户关注时间，