[发明专利]一种基于深度学习的用户文献阅读兴趣分析方法有效
申请号: | 201710627545.9 | 申请日: | 2017-07-28 |
公开(公告)号: | CN108280114B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 朱全银;唐海波;严云洋;李翔;胡荣林;瞿学新;邵武杰;许康;赵阳;钱凯;高阳 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F16/36 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 223005 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 用户 文献 阅读 兴趣 分析 方法 | ||
1.一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,包括如下步骤:
步骤一:收集用户所有历史浏览的文档集以及浏览行为记录,根据每篇文档的浏览时长计算文献权重;
步骤二:计算每篇文档浏览时刻距离当前时刻的时间距离,将时间距离大于所设定的阈值的文档删除,得到待分析文档集;
步骤三:对待分析文档集的标题内容进行预处理得到备选词语集合,使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语;
步骤四:将从备选词语集合中过滤出反应用户阅读兴趣的词语与文档关键词集合合并得到用户阅读兴趣集合;
其中,所述步骤二中对文献进行过滤最终得到待分析文档集的具体步骤如下:
步骤2.1:定义每篇文献开始阅读时刻距离目前的时间距离集,待分析文档集;
步骤2.2:从用户的历史记录信息中计算用户最后一次阅读每篇文献结束距离当前时刻的时长,对于时间长度低于所设定阈值的文献进行剔除,获得待分析文档集;
所述步骤三中使用基于词向量模型的阅读兴趣挖掘方法,从备选词语集合中过滤出反应用户阅读兴趣的词语的具体步骤如下:
步骤3.1:定义文档标题预处理集,文档临时关键词集,文档词语权值集,用户临时阅读偏好集;
步骤3.2:对待分析文档集中文档的关键词进行分词及取除停用词的预处理工作,将得到的词语集合存入文档标题预处理集;
步骤3.3:根据词向量模型计算每篇文档关键词语义上相近的5个词语,分别将每篇文档得到的5个词语与文档原关键词合并作为每篇文档的临时关键词;
步骤3.4:利用词向量计算每篇文档的标题预处理集中的每个词语与文档的临时关键词集中的词语相似度,将标题预处理集中每个词语与文档的临时关键词集中的词语计算出的最大相似度作为得分,同时,将每个词语的得分与所在文献的权重相乘,将结果作为每个词语的权值,最后得到标题预处理集中每个词语的权值集;
步骤3.5:对标题预处理集中每个词语的权值集中得分低于所设阈值的词语进行剔除,得到用户临时阅读偏好集合PR,若偏好集合PR中出现分别来自不同的文献重复的词语,则将词语得分进行相加作为权值。
2.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤一中计算文献权重的具体步骤如下:
步骤1.1:定义用户历史浏览文档集,文档关键词集;
步骤1.2:收集用户历史浏览文档集并获取文档集中每篇文档的关键词;
步骤1.3:收集用户的历史记录信息,将其浏览每篇文献的时间长度进行最小-最大归一化处理,并将归一化处理后的值作为每篇文献的权重值。
3.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤四中得出用户阅读兴趣集合的具体步骤如下:
步骤4.1:定义用户临时阅读偏好集合FPR;
步骤4.2:保留用户阅读偏好集合PR中权值排名前50%的词语;
步骤4.3:将关键词集合KW中的词语加入到用户阅读偏好集合PR中,得到用户临时阅读偏好集合FPR。
4.根据权利要求1所述的一种基于深度学习的用户文献阅读兴趣分析方法,其特征在于,所述步骤2.2中时长阈值设置为10天;步骤3.5中有效词语阈值设置为0.581。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710627545.9/1.html,转载请声明来源钻瓜专利网。