[发明专利]一种基于图神经网络会话序列推荐方法及系统有效
申请号: | 202010789843.X | 申请日: | 2020-08-07 |
公开(公告)号: | CN111859160B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 李冬芬;王惠明;刘明哲;钟豪;王林平;唐小川 | 申请(专利权)人: | 成都理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/951;G06F16/901;G06N3/0442;G06N3/08 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610059 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 会话 序列 推荐 方法 系统 | ||
1.一种基于图神经网络会话序列推荐方法,其特征在于,方法包括以下步骤:
S1,新闻预处理,从第三方新闻库爬取新闻源数据,并进行新闻内容的清洗和深度分析,最终输出为经过预处理的结构化新闻数据;包括以下子步骤:
S101,基于scrapy框架利用爬虫软件从新闻源数据库中并发爬取半结构化或纯文本的新闻源数据,并进行数据清洗和组织,生成结构化数据;
S102,采用TF-IDF算法进行关键字提取,从而为每篇新闻打上标签,并分析该新闻的热度情况,最终生成预处理后的新闻数据,存入数据库;
S2,基于标签推荐,从数据库和用户属性表中提取新闻标签和用户属性,并将其向量化,经过余弦相似度的计算得出与该用户属性最相近的新闻推荐;包括以下子步骤:
S201,从数据库中获取新闻数据,并提取出每个新闻的标签,采用词袋模型生成对应新闻的标签向量;
S202,获取用户体验反馈部分在用户属性表中生成的用户属性,并生成对应用户的属性向量;
S203,基于相似度计算模型,经过余弦相似度的计算得出与该用户属性最相近的新闻作为推荐候选集;
S204,采用新闻热度排序的方式选出热度最高的N个新闻作为最终候选集,并写入推荐候选表;
S3,用户体验反馈,为用户提供一系列个性化的标签选项,并且实时监测用户行为作为反馈数据回传至模型;包括以下子步骤:
S301,为用户提供一系列新闻类型标签以供选择,并根据用户选择的标签向用户推荐新闻,同时将用户选择的标签作为用户属性;
S302,实时监测用户的行为,采集用户浏览新闻过程生成的个性化行为数据,并实时的存入用户的行为数据表中;
S4,会话序列分析,获取用户行为数据,同时对获取的数据进行分析和筛选,并将筛选后的行为数据构建为会话序列数据;包括以下子步骤:
S401,从用户行为数据表中获取行为数据,根据用户对新闻的行为程度进行行为筛选,将数据库中新闻划分为感兴趣或不感兴趣两部分;
S402,根据用户感兴趣的新闻数据构建会话序列,基于时间序列生成一系列会话,每个会话包含多个行为,然后存入会话序列数据表中,以供模型使用;
S5,会话训练推荐,利用用户会话序列数据来训练GNN模型,达到预测用户下一时刻行为的目标,从而实现新闻推荐;包括以下子步骤:
S501,从会话序列数据表中获取会话数据,经过一定的加工处理,生成可供模型训练使用和测试的数据集;
S502,搭建图神经网络模型,初始模型会进行参数初始化,将初始化的参数保存到模型参数表中;
S503,初始化完成后便将会话数据导入模型进行模型训练,当损失降到一定阈值输出模型参数并更新模型参数表;
S504,进行预测并将预测结果传入排序部分进行推荐排序,最终生成推荐新闻ID存入推荐候选表中,以供用户体验部分推荐使用。
2.根据权利要求1所述的一种基于图神经网络会话序列推荐方法,其特征在于,所述子步骤S503中还包括:基于每个用户的Session记录去构建一个子图,其中每个用户的历史行为都会被构建为一个子图,最终得到一个完整的有向图;为每个有向图都创建一个出度矩阵和一个入度矩阵,采用邻接矩阵的方式来存储上述建模出来的有向图,将每个有向图经过归一化处理输入进神经网络模型进行训练。
3.一种基于图神经网络会话序列推荐系统,其特征在于,包括:
新闻预处理模块,从第三方新闻库爬取新闻源数据,并进行新闻内容的清洗和深度分析,最终输出为经过预处理的结构化新闻数据;
基于标签推荐模块,从数据库和用户属性表中提取新闻标签和用户属性,并将其向量化,经过余弦相似度的计算得出与该用户属性最相近的新闻推荐;
用户体验反馈模块,为用户提供一系列个性化的标签选项,并根据拥护选择的标签推荐新闻,并将用户选择的标签作为用户属性;实时监测用户行为作为反馈数据实时回传至模型;
会话序列分析模块,获取用户行为数据,同时对获取的数据进行分析和筛选,并将筛选后的行为数据构建为会话序列数据;所述会话序列分析模块具体包括用户行为筛选子模块和会话序列构建子模块;用户行为筛选子模块用于根据判定标准对用户浏览的新闻进行筛选;会话序列构建子模块用于根据筛选出的用户感兴趣的数据构建会话序列;
会话训练推荐模块,利用用户会话序列数据来训练GNN模型,达到预测用户下一时刻行为的目标,从而实现新闻推荐;所述会话训练推荐模块具体包括会话子图建模子模块、门控神经网络子模块、注意力分配子模块和item预测子模块;会话子图建模子模块用于根据用户行为数据构建有向图;门控神经网络子模块用于使用GNN网络对图进行信息的抽取挖掘,得到会话图中新闻item向量;注意力分配子模块用于根据物品与点击的相似度,来进行注意力权值的附加,将信息附加权重后加在一起成为向量sg;item预测子模块用于对s1和sg进行横向拼接,并进行线性变换,得到结果sh,最后将sh于每个新闻的向量进行内积运算,最终得到每个新闻的预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学,未经成都理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010789843.X/1.html,转载请声明来源钻瓜专利网。