[发明专利]一种基于用户浏览行为的网页推荐方法有效

专利信息
申请号: 201410412077.X 申请日: 2014-08-20
公开(公告)号: CN104199874B 公开(公告)日: 2018-07-31
发明(设计)人: 姚念民;张薇 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于用户浏览行为的网页推荐方法,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;步骤2:对页面内容进行文本分析,获得页面的特征项;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。
搜索关键词: 一种 基于 用户 浏览 行为 网页 推荐 方法
【主权项】:
1.一种基于用户浏览行为的网页推荐方法,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息,具体包括:利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间,每当一个页面即pageA加载完成时,浏览器将此时的系统时间记录下来作为页面停留时间的开始时刻T(startA),当这个页面进入非活跃状态时,也就是用户进行了关闭页面的操作或进行了新的网页浏览,浏览器再次记录系统时间,作为页面停留时间的结束时刻T(endA),用户在此页面的页面停留时间StayTime(pageA)等于结束时刻与开始时刻的时间差,页面停留时间计算公式如下:StayTime(pageA)=T(endA)‑T(startA)利用在浏览器中得到所有页面url,对页面源代码,即页面内容,进行获取;步骤2:对页面内容进行文本分析,获得页面的特征项,具体包括:首先对网页中的干扰信息进行清理,所述的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息;文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N取7;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值,具体包括:在用户兴趣挖掘阶段,考虑到页面停留时间和特征项对用户兴趣的影响,对用户每一兴趣类进行兴趣强度计算,即计算用户兴趣类权值;兴趣等级InterestDegree(Ij):表示用户兴趣类权值;页面停留时间等级ViewtimeDegree(Ij):表示用户在每一关键词中花费的时间占总浏览时间的比值,Ij∈T,T表示特征集合;关键词兴趣等级KeywordDegree(Ij):表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值;兴趣类权值计算公式如下所示:InterestDegree(Ij)=KeywordDegree(Ij)×ViewtimeDegree(Ij)通过计算页面停留时间等级和关键词兴趣等级,算出用户对每个兴趣类的兴趣强度,从而得到用户兴趣表示,用户兴趣表示为:((I1,InterestDegree(I1)),(I2,InterestDegree(I2)),...,(In,InterestDegree(In)),其中,In表示用户的兴趣类,InterestDegree(In)表示In对应的用户兴趣类权值,经过文本分析后,利用特征项表示页面内容,构建向量空间模型,对于页面集合P={p1,p2,...,pn}中的任意页面pi其中1<=i<=n,表示成pi={(ti1,wi1),(ti2,wi2),...,(tin,win)}、n>=1,其中tik、1<=k<=n表示页面的特征项,wik、1<=k<=n表示特征项对应的权值,在向量空间模型下,使用特征项的权重集合表示页面向量,页面pi和pj的页面向量分别为pi(wi1,wi2,...,win),pj(wj1,wj2,...,wjn),两个页面之间的相似度Sim(pi,pj)的公式为:步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410412077.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top