[发明专利]一种数字化资源个性化推荐方法有效
申请号: | 201510408131.8 | 申请日: | 2015-07-10 |
公开(公告)号: | CN105045864B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 谢波;姜波;刘洋 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数字化资源个性化推荐方法,通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明具有推荐精确和多样的特点,更能体现出用户的个性化。 | ||
搜索关键词: | 一种 数字化 资源 个性化 推荐 方法 | ||
【主权项】:
1.一种数字化资源个性化推荐方法,其特征在于,包括以下步骤:(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,具体包括以下子步骤:(1.1)在获取网站全部页面URL后,去掉无效页面,所述无效页面包括:脚本文件URL,样式表文件URL以及一些错误页面;(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数据库中,生成网页标签表;(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤:(2.1)用户设置浏览器代理,通过代理服务器访问网站;(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每次用户浏览页面时,将用户ID、页面URL、页面标题、页面访问时间、上一跳地址返回给服务器,保存在数据库中,生成访问记录表;(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与当前用户访问页面最相似的页面,具体包括以下子步骤:(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词无意义的词,得到n个有效词(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数用每个有效词出现的次数除以有效词数n,得到每个有效词在网页中出现的词频数扫描网页标签表中所有m个页面,分别统计包含有效词wk的网页数用网站网页总数m除以包含该词的网页数,得到包含有效词wk的网页占网页总数的反比例取用TF与IDF的乘积相乘得到有效词wk的TF‑IDF,即按照这个过程,得到n个有效词的TF‑IDF,将这些有效词的TF‑IDF按照降序排列,按顺序取前p个作为本页面的关键字;(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键字tk在两个页面中的词频数进一步将每个关键字词频除以所有关键字总的词频数,即获得每个关键字的相对词频(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量计算两个分量的余弦相似度;(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签总的访问频次,即得到每个标签的相对访问频次;根据相对访问频次按照降序排列,计算包含标签lk的页面的访问次数,按照降序排列,生成基于标签lk的推荐列表,合并s个标签生成的推荐列表,将最终推荐结果推荐给用户;步骤(2)生成的访问记录表,用户所访问网站是互联网已存在的,通过用户设置代理的方式,代理服务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获取用户在该网站上的访问记录并将其返回到服务器,保存在数据库中;步骤(1)中生成的网页标签表,统计网页标签表可以获得领域的标签库,在之后访问未标注页面时,选取最相似页面的标签作为该页面的标签,结合步骤(2)生成的访问记录表和网页标签表,用户访问的页面都已标注标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510408131.8/,转载请声明来源钻瓜专利网。
- 上一篇:领口不易脏的透气性舒适性好服装
- 下一篇:能降低人体温度的多色彩服装