[发明专利]一种基于搜索历史、浏览足迹的搜索推荐方法在审
申请号: | 202011074519.6 | 申请日: | 2020-10-09 |
公开(公告)号: | CN112163158A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 冯光璐;欧阳静;李然;黄莉雅;曾路;舒彧;倪凡 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F16/335;G06F16/338;G06F16/33;G06F16/35;G06K9/62 |
代理公司: | 成都玖和知识产权代理事务所(普通合伙) 51238 | 代理人: | 胡琳梅 |
地址: | 550000 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索 历史 浏览 足迹 推荐 方法 | ||
本发明公开了一种基于搜索历史、浏览足迹的搜索推荐方法,本发明首先通过文档相似度算法处理大量文档,并建立文档相似度关系,同时记录用户的搜索历史和浏览足迹,对搜索历史进行语义分词提取关键词并通过关键词匹配文档与浏览足迹相似文档进行组合去重,最后推荐给用户,从而解决传统推荐算法推荐不准、重复的问题。
技术领域
本发明涉及一种基于搜索历史、浏览足迹的搜索推荐方法。
背景技术
现有技术主要由基于内容推荐、协同过滤算法推荐、关联推荐等,但是这些算法都存在不同的缺点,基于内容推荐算法对于复杂属性不好处理,协同过滤算法存在稀疏问题和扩展性问题。
发明内容
有鉴于此,本发明的目的是提供一种基于搜索历史、浏览足迹的搜索推荐方法。能够克服背景技术中现有技术存在的缺陷。
本发明的第一方面的目的是通过以下技术方案实现的:
一种基于搜索历史、浏览足迹的搜索推荐方法,所述方法包括以下步骤:
步骤S1:建立文档相似度关系,在处理大量文档的过程中,计算文档相似度,梳理文档相似度关系;
步骤S2:根据设定的用户标签,再从用户标签中提取前N个最活跃的标签,根据这些标签到文档库中进行全文搜索,对搜索到的文档进行排序,匹配标签越多权重越高;
步骤S3:根据用户的浏览足迹,取出最新的M条记录,根据这M条记录在数据库中查找文档的相似文档,相似度越高排名越靠前;
步骤S4:从用户标签中推荐的文档和从浏览足迹中找到的相似文档,对这些文档进行合并,去掉重复记录,去掉用户已经浏览过的记录,最终做加权排序再推荐给用户。
特别地,所述步骤S1中,使用simHash算法计算文档相似度。
特别地,步骤S1包括的具体步骤如下:
步骤S11:计算文档的simHash值;
步骤S12:比较文档的simHash值相似度,如果大于阈值则保存文档相似记录,然后进入下一步;如果小于阈值则直接进入下一步;
步骤S13:保存文档信息,结束。
特别地,所诉步骤S2中,用户标签通过用户的搜索记录智能提取或直接由用户手动添加自己的关键词,通过用户的搜索记录智能提取是根据用户的搜索记录使用nlp分词、去掉停用词及标点符号,最后提取出用户搜索的关键词,以此关键词作为用户标签。
特别地,所述N值为20、30、40或50。
特别地,所述M值为20、30、40或50。
本发明的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的方法。
本发明的第三方面的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。
本发明的有益效果是:本发明首先通过文档相似度算法处理大量文档,并建立文档相似度关系,同时记录用户的搜索历史和浏览足迹,对搜索历史进行语义分词提取关键词并通过关键词匹配文档与浏览足迹相似文档进行组合去重,最后推荐给用户,从而解决传统推荐算法推荐不准、重复的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011074519.6/2.html,转载请声明来源钻瓜专利网。