[发明专利]一种基于主题类的跨语言生物医学类学术论文信息推荐方法在审

专利信息
申请号: 201810852223.9 申请日: 2018-07-27
公开(公告)号: CN109255121A 公开(公告)日: 2019-01-22
发明(设计)人: 陆遥;霍焯亮 申请(专利权)人: 中山大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 陈卫
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生物医学 信息推荐 学术论文 词组 有效地 主题类 文档 检索 语言 词频 读取 数据预处理 有效地减少 空间降维 数据降维 特征分析 推荐系统 文本聚类 文本数据 信息检索 语言主题 语义信息 主题空间 主题模型 词向量 多义 文本 关联 分组 翻译 英文 挖掘 中文 应用 分析 发现
【说明书】:

发明涉及信息检索以及推荐系统技术领域,更具体地,涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。本方法主要包括对文本数据进行数据预处理、应用PLAS模型进行文本聚类、计算每个主题分组的词向量信息、获得每一个主题最相关的跨语言主题编号、读取用户输入的检索词组、判断用户的检索词组、得到中文文章的推荐结果以及得到英文文献的推荐等步骤。本发明实现了将文本的分析从词频空间降维至空间主题空间;通过数据降维的方法能够有效地减少模型对翻译方法的依赖,有利于实现跨语言的文献特征分析;同时主题模型能够有效地挖掘文档中的语义信息,发现文档之间的潜在关联,能够有效地解决一词多义和一义多词的问题。

技术领域

本发明涉及信息检索以及推荐系统技术领域,更具体地,涉及一种基于主题类的跨语言生物医学类学术论文信息推荐方法。

背景技术

在文本推荐系统中,最为常用的方法是利用词频-逆向文档词频(TermFrequency-Invert Document Frequency,TF-IDF)方法将文档转化为词频维度的向量表示。然后通过词向量的距离来计算文档之间的相似程度,从而来进行基于内容的推荐。TF-IDF作为一种统计方法,仅仅考虑了单词在文档中出现的词频信息,而无法挖掘文档内部和文档之间的语义信息和统计信息。这些信息往往才是反映文档内容的最好特征。针对于不同语言下的文档处理,TF-IDF也无法很好地处理翻译词汇存在的一词多义和一义多词的现象。比如英文单词chair,在文档A中表示的意思是椅子,而在文档B中表达的意思却可能是主席。尽管单词在这两个文档中具有相差甚远的含义,但是TF-IDF却无法发现这一词多义的现象。又比如单词advantage和benefit都具有优点,好处的意思。但是TF-IDF模型同样也不会发现这些特性,它仅仅会对不同的单词分别统计词频。这些现象在文档信息处理时经常发生,将直接影响到推荐结果,使之偏离用户的真实需求。在处理跨语言的检索问题上,很多学者也尝试利用各种方法优化机器翻译的效果,但是仍然离不开对翻译词典或者双语对照语料的依赖,学术文献的专业性和特殊性使得翻译模型的建模难度增大,模型效果低下。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于主题类的跨语言生物医学类学术论文信息推荐方法。

为解决上述技术问题,本发明采用的技术方案是:

一种基于主题聚类的跨语言生物医学类学术论文信息推荐方法,包括以下步骤:

S1:首先对文本数据进行数据预处理。

S2:根据数据预处理得到的词频信息应用PLAS模型进行文本聚类并得到每个学术文献的主题分组。

S3:计算每个主题分组的词向量信息并得到每个主题分组的向量信息。

S4:利用翻译关系将每个主题分组的向量信息中的词组进行对应,通过加权计算的方法统一不同语言下的主题信息向量的维度,然后利用向量间的余弦距离计算主题之间的相似度,得到每一个主题最相关的跨语言主题编号。在步骤S4中,由于不同语言下的主题的信息向量的维度不一致,故通过加权计算的方法统一不同语言下的主题信息向量的维度。

S5:读取用户输入的检索词组,利用结巴分词进行分词,同样去除停用词。

S6:判断用户的检索词是否能够在系统的总词表中检索到,如果检索不到检索词,则输出无法得到推荐结果,推出系统,否则进入到下一步。

S7:通过字符串匹配,计算检索词在中文主题下文本中出现的TF-IDF值,根据TF-IDF值排序得到与检索词最相关的中文主题,根据中文主题对应的p(z|d)矩阵,对主题内的中文文章进行排序,得到中文文章的推荐结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810852223.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top