[发明专利]一种基于文献内容知识图谱的多层引文推荐方法在审
申请号: | 201511026567.7 | 申请日: | 2015-12-31 |
公开(公告)号: | CN105653706A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 张春霞;陈俊鹏;王森;王树良;赵小林 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文献 内容 知识 图谱 多层 引文 推荐 方法 | ||
技术领域
本发明涉及信息推荐技术领域,特别是涉及一种基于文献内容知识图谱的 多层引文推荐方法。本发明在信息推荐、信息检索、网络舆情监控等领域具有 广阔的应用前景。
背景技术
目前,信息推荐方法可以分为三大类,基于内容的推荐、基于协同过滤的 推荐、以及混合的方法。
在基于内容的推荐方法中,首先构建推荐对象的内容特征模型和用户兴趣 模型,然后计算推荐对象与用户兴趣的相似度,最后将相似度较大的推荐对象 推荐给用户。推荐对象和用户模型通常采用关键词表示特征。该方法的优点是 可以根据用户的历史记录来构建用户兴趣模型,反映用户的需求和偏好。其特 点是,第一,推荐性能依赖于推荐对象的特征提取方法和内容特征模型,也就 是依赖于推荐对象的内容特征的准确性和完整性;第二,推荐对象和用户兴趣 模型基于关键词进行表示和相似度计算,停留在字符串层面,限制用户对高层 次概念的认知,难以满足用户的真正需求。
基于协同过滤的推荐方法是基于推荐对象之间的相关性或用户之间的相关 性来进行推荐。基于协同过滤的推荐方法可以分为基于用户的协同推荐、基于 物品的协同推荐,以及基于模型的协同推荐。该方法的优点是可以处理结构化 和非结构化的复杂对象。其特点是存在稀疏性问题和冷启动问题。稀疏性问题 是指对于涉及推荐对象较少的用户,在庞大的用户集中难以发现与该用户兴趣 相似的用户。冷启动问题是指当新用户或者新推荐对象第一次出现在推荐系统 中,系统难以获知新用户的兴趣偏好,难以对新推荐对象进行推荐。
引文推荐是信息推荐的重要研究内容,其目的是在海量的文献中找出当前 论文需要引用的论文。现有引文推荐方法主要利用文献的引用关系来进行推荐, 基于关键词来表示论文的内容和用户的兴趣。
发明内容
本发明的目的是为了解决上述现有技术中推荐方法受限于相似用户的数 量,难以检索字符不同语义相似的文献,难以检索与论文的研究对象和研究行 为具有不同语义关联关系的文献,以及现有技术中的引用论文推荐结果不能很 好满足用户需求的问题,提供一种基于文献内容知识图谱的多层引文推荐方法。
本发明的目的是通过下述技术方案实现的。
一种基于文献内容知识图谱的多层引文推荐方法,包括如下步骤:
步骤1,获取查询需求
提取需要推荐引文的论文的标题和摘要,进行词根提取(Stemming)和词 形还原(Lemmatization),去掉标点符号和停用词。停用词是指不具有实际意义 的词语,主要包括助词、介词、连词等。进一步,提取关键词作为搜索引擎Lucene 查询需求的检索词。
步骤2,利用文献内容的知识图谱进行查询扩展
第一,对查询需求的检索词进行扩充,利用同义词词典和近义词词典获得 检索词的同义词和近义词,扩充检索词集合;
第二,根据论文的标题和摘要,识别论文的研究对象词语u和研究行为词 语v;
第三,利用同义词词典和近义词词典,提取论文的研究对象词语和研究行 为词语的同义词和近义词,构建检索扩展词,将其添加到检索词集合中。
若论文的研究对象词语u的同义词和近义词为a1,a2,…,am(m为自然数), 研究行为词语v的同义词和近义词为b1,b2,…,bn(n为自然数),则构建如下的 检索扩展词,其中“+”是指两个词语的连接。例如,“u+b1”是指词语u和词 语b1的连接。
u+b1,u+b2,…,u+bn,
a1+v,a1+b1,a1+b2,…,a1+bn,
a2+v,a2+b1,a2+b2,…,a2+bn,
…,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511026567.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端应用的查找方法及装置
- 下一篇:海量文本中低占比信息识别方法及装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法