[发明专利]一种基于互联网用户行为的服务推荐方法有效
申请号: | 202010588883.8 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111753151B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 曾伟英;陈昌明;霍智杰 | 申请(专利权)人: | 广东科杰通信息科技有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/906;G06F16/951;G06F16/9535;G06F40/247;G06F40/284;H04L67/55 |
代理公司: | 佛山市禾才知识产权代理有限公司 44379 | 代理人: | 刘羽波;梁永健 |
地址: | 528000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互联网 用户 行为 服务 推荐 方法 | ||
一种基于互联网用户行为的服务推荐方法,具体步骤如下:步骤A:建立网络爬虫爬取IP浏览文章的历史数据,并对全量的文章提取关键字标签,将所有标签作为元素进入Apriori模型生成关联事务;步骤B:制作数据队列,对新用户的搜素关键词和点击浏览文章进行采集存储;步骤C:对爬取的全量文章词汇进行word2vec提取,从用户的行为轨迹文本中匹配近似近义词汇,作为新用户的文本标签;步骤D:将新用户的文本标签通过步骤A中生成的关联事务关联起来,形成新的用户文本标签,根据新的用户文本标签进行文章推荐。
技术领域
本发明涉及智能推荐技术领域,尤其涉及一种基于互联网用户行为的服务推荐方法。
背景技术
目前的文章推荐方法主要有两种,一种是根据人工规则筛选出文章并进行推荐,例如:将热点新闻或者整体点击率更高的非个性化的文章推荐给用户,但是根据人工规则向用户推荐的文章不具备个性化,导致文章点击率下跌,故存在第二种方法,根据用户历史行为推荐文章,但是该方法,虽然优于第一种,但是却只能向用户推荐与历史行为中存在的偏好相关的文章,难以向用户推荐与历史行为中不存在的偏好相关的文章,导致无法推荐用户潜在兴趣但不熟悉的文章,因此无法挖掘用户的潜在兴趣从而降低推荐效率。
发明内容
本发明的目的在于针对背景技术中的缺陷,提出一种基于互联网用户行为的服务推荐方法,通过对用户关注信息的主题的关联关系进行建立,同时提升对于用户搜索文本的辨识能力,利用爬虫对特定IP历史浏览的文章文本数据进行爬取,建立接口获取用户的搜索痕迹,并使其具有时效性,实现文章推荐的效果。
为达此目的,本发明采用以下技术方案:
一种基于互联网用户行为的服务推荐方法,具体步骤如下:
步骤A:建立网络爬虫爬取IP浏览文章的历史数据,并对全量的文章提取关键字标签,将所有标签作为元素进入Apriori模型生成关联事务;
步骤B:制作数据队列,对新用户的搜素关键词和点击浏览文章进行采集存储;
步骤C:对爬取的全量文章词汇进行word2vec提取,从用户的行为轨迹文本中匹配近似近义词汇,作为新用户的文本标签;
步骤D:将新用户的文本标签通过步骤A中生成的关联事务关联起来,形成新的用户文本标签,根据新的用户文本标签进行文章推荐。
优选的,在步骤A中,具体包括:
步骤A1:根据埋点数据,获取不同IP地址点击过的文章标题;
步骤A2:利用请求接口对根据文章标题构建成的url进行请求,返回jsonp格式数据体;
步骤A3:对jsonp格式数据体进行解析,获取其中的标题对应的文章内容;
步骤A4:对IP的阅读历史进行聚合,同时对所有文章内容进行关键词提取,使关键词聚合到IP上,形成每个IP的标签;
步骤A5:将IP及其标签放到Apriori模型中进行拟合,获取所有关键词的关联事务。
优选的,在步骤B中,具体包括:
步骤B1:通过埋点采集IP对应搜索引擎的关键字;
步骤B2:将采集的关键字形成文本队列。
优选的,在步骤C中,具体包括:
步骤C1:对文本进行分词处理;
步骤C2:去除文本中的停用词;
步骤C3:以文章作为向量形成文本矩阵,进行word2vec处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东科杰通信息科技有限公司,未经广东科杰通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010588883.8/2.html,转载请声明来源钻瓜专利网。