[发明专利]一种基于主题类的跨语言生物医学类学术论文信息推荐方法在审
申请号: | 201810852223.9 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109255121A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 陆遥;霍焯亮 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈卫 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及信息检索以及推荐系统技术领域,更具体地,涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。本方法主要包括对文本数据进行数据预处理、应用PLAS模型进行文本聚类、计算每个主题分组的词向量信息、获得每一个主题最相关的跨语言主题编号、读取用户输入的检索词组、判断用户的检索词组、得到中文文章的推荐结果以及得到英文文献的推荐等步骤。本发明实现了将文本的分析从词频空间降维至空间主题空间;通过数据降维的方法能够有效地减少模型对翻译方法的依赖,有利于实现跨语言的文献特征分析;同时主题模型能够有效地挖掘文档中的语义信息,发现文档之间的潜在关联,能够有效地解决一词多义和一义多词的问题。 | ||
搜索关键词: | 生物医学 信息推荐 学术论文 词组 有效地 主题类 文档 检索 语言 词频 读取 数据预处理 有效地减少 空间降维 数据降维 特征分析 推荐系统 文本聚类 文本数据 信息检索 语言主题 语义信息 主题空间 主题模型 词向量 多义 文本 关联 分组 翻译 英文 挖掘 中文 应用 分析 发现 | ||
【主权项】:
1.一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,其特征在于,包括以下步骤:S1:首先对文本数据进行数据预处理;S2:根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组;S3:计算每个主题分组的词向量信息并得到每个主题分组的向量信息;S4:利用翻译关系将每个主题分组的向量信息中的词组进行对应,通过加权计算的方法统一不同语言下的主题信息向量的维度,然后利用向量间的余弦距离计算主题之间的相似度,得到每一个主题最相关的跨语言主题编号;S5:读取用户输入的检索词组,利用结巴分词进行分词,同样去除停用词;S6:判断用户的检索词是否能够在系统的总词表中检索到,如果检索不到检索词,则输出无法得到推荐结果,推出系统,否则进入到下一步;S7:通过字符串匹配,计算检索词在中文主题下文本中出现的TF‑IDF值,根据TF‑IDF值排序得到与检索词最相关的中文主题,根据中文主题对应的p(z|d)矩阵,对主题内的中文文章进行排序,得到中文文章的推荐结果;S8:根据步骤S7中找到的中文主题,访问数据库得到对应最相关的英文主题,判断检索词是否能在翻译词表中找到对应的英文翻译,如果能找到英文翻译,则计算该英文翻译相对于该英文主题下所有英文文章的TF‑IDF值,根据TF‑IDF值对英文文章进行排序,得到英文文章的推荐结果;若无法找到对应的英文翻译,则直接根据该英文主题对应的p(z|d)矩阵,对主题内的英文文章进行排序,得到英文文章的推荐结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810852223.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种老挝语分词方法
- 下一篇:一种对论文引用关系分类标记的方法