[发明专利]一种基于混合推荐算法的学术会议推荐系统有效
申请号: | 201910042396.9 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109933717B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 张凌;徐傲雪;张晶 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;H04L12/58;H04L29/06;H04L29/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 推荐 算法 学术会议 系统 | ||
1.一种基于混合推荐算法的学术会议推荐系统,其特征在于:所述系统通过用户邮件过滤、公开会议通知网站信息采集两种方法获取学术会议通知信息,对学术会议通知信息分别进行邮件数据的预处理和HTML网页数据提取,经处理后生成统一格式的会议信息持久化存储在服务器上,根据服务器性能及数据更新速度设置合适的时间间隔布置定时任务,该定时任务实现用户和物品相关度的计算,计算方法为一种融合基于用户的协同过滤和基于内容的混合推荐算法,其中基于内容的算法以TF-IDF结合词向量的文本表示为基础,并根据相关度对用户进行会议推荐,推荐结果通过网页展示和归档到网盘两种方法推送给用户;所述系统具体包括以下模块:
邮件信息处理模块,用于实现接收电子邮件数据,解码邮件数据形成邮件摘要,筛选学术会议通知类邮件并根据邮件正文进行基于SVM的学术会议领域分类,对经过筛选的邮件正文进行基于规则的有效信息提取,存储处理后的学术会议信息元数据及邮件摘要;
网页信息处理模块,用于实现根据系统配置指定目标网页,实时检查目标网页情况,采集目标网页更新的学术会议通知资源,记录无法连接或结构变更的失效网页,并用基于标签的方法提取网页中的有效信息,存储处理后的学术会议信息元数据及网页摘要;
学术会议推荐模块,用于实现对用户数据及邮件信息处理模块和网页信息处理模块存储的会议数据进行预处理,通过定时任务在指定时间通过融合基于用户的协同过滤和基于内容的混合推荐算法得到用户物品相关度,并根据相关度及用户配置生成推荐结果并缓存;
网盘归档模块,用于实现学术会议推荐模块推荐结果获取,根据推荐结果包含的用户依次检查关联网盘,将推荐给对应用户的学术会议通知邮件摘要或网页正文归档到用户的网盘;
会议信息展示及配置管理模块,用于实现用户管理个人信息和用户配置系统相关设置,展示相关学术会议摘要,反馈推荐结果,订阅会议网站;
所述学术会议推荐模块包括数据预处理组件和核心推荐组件;所述数据预处理组件实现用户数据预处理、会议信息预处理、中间数据存储和失效数据检查及清理;所述核心推荐组件实现相关度计算、用户配置读取、推荐结果生成和推荐结果缓存;其中:
所述数据预处理组件通过轮询检查会议数据预处理队列和用户数据预处理队列,在进行数据预处理之前进行失效数据检查,将会议开始时间晚于当前日期的会议状态设置为历史会议,不作为推荐备选会议,分别实现两种数据预处理方法如下:
对于用户数据的预处理,创建系统保存的物品-用户倒排表,并计算相关用户的喜好相似度,使用余弦相似度衡量用户间的喜好相似度,设N(u)为用户u感兴趣的会议集合,N(v)为用户v感兴趣的会议集合,则用户u和用户v的喜好相似度为
对于会议数据的预处理为对会议数据的文本数据进行分词和去停用词,使用结合TF-IDF及在大型语料库上进行预训练的词向量来进行文本表示,文档向量表示为其中Di表示第i篇文档,K(t,Di)表示词t在Di中的TF-IDF值,vt表示词t的词向量,得到文档向量后,使用欧式距离计算每个文档间的相似度;
为节省计算时间,将预处理后得到的中间数据持久化保存在本地文件系统;
所述核心推荐组件通过定时任务设置,在固定时间执行推荐任务,具体步骤如下:
a、根据用户喜好相似度矩阵,找出与用户u最相似的k个用户,用集合S(u,K)表示,将S中用户感兴趣的会议全部提取出来,并去除u已经感兴趣的会议;对于每个候选会议i,用户u对它感兴趣的程度用如下公式计算:其中N(i)表示对i会议感兴趣的用户,wuv表示用户u和用户v的喜好相似度,根据用户配置的希望接收的推荐会议数量M,选择p(u,i)最大的2*M个组成候选会议;
b、根据会议的文本表示向量及其相似度,找出步骤a中得到的候选会议集合J(u)中与用户u感兴趣的会议集合I(u)最相似的会议,对于每个候选会议i∈J(u),用户u对它感兴趣的程度用公式计算:其中dij表示会议i和会议j的距离,筛选掉M个候选会议后,得到最终推荐给用户u的M个会议;
c、通过Redis创建网盘归档队列,将得到的推荐结果以{用户:[会议1,会议2,会议3…]}的json格式添加到网盘归档队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910042396.9/1.html,转载请声明来源钻瓜专利网。