[发明专利]面向学者聚类的研究兴趣挖掘方法、装置和存储介质有效

专利信息
申请号: 202111072396.7 申请日: 2021-09-14
公开(公告)号: CN113515638B 公开(公告)日: 2021-12-07
发明(设计)人: 寇菲菲;王文东;杜军平;李昂;薛哲;梁美玉 申请(专利权)人: 北京邮电大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33
代理公司: 北京金咨知识产权代理有限公司 11612 代理人: 宋教花
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 学者 研究 兴趣 挖掘 方法 装置 存储 介质
【说明书】:

发明提供一种面向学者聚类的研究兴趣挖掘方法、装置和存储介质,该方法包括以下步骤:基于多源学者相关学术数据构造学术元数据集合;将学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,对主题模型进行采样获得学者兴趣语义表示,学者兴趣语义表示包括专业领域‑主题分布、主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布;基于获得的学者兴趣语义表示进行学者聚类,获得学者聚类结果;研究兴趣挖掘模型对来自同一数据源且属于同一个专业领域的学者的数据共享同一个主题分布,研究兴趣挖掘模型中,专业领域‑主题分布被建模为狄利克雷分布,主题‑英文单词分布、主题‑中文单词分布和主题‑学者分布被建模为多项式分布。

技术领域

本发明涉及大数据技术领域,具体是一种面向学者聚类的研究兴趣挖掘方法、装置和存储介质。

背景技术

学者、科研项目和论文等学术数据都有自己的专业领域。例如,有些数据属于软件工程,有些数据属于人工智能。不同专业领域的研究内容不同,同一专业领域的数据往往具有共同的主题分布。针对学者学术数据,从学术数据中发现学者的研究兴趣,并根据其研究兴趣对学者进行聚类,对于许多任务都很重要,例如为学者选择合作者,为期刊选择审稿人,为政府挑选专家。与一般数据不同,学者兴趣相关的学术数据有其独特的属性。一方面,它是多源的,学者主持的基金项目和发表的论文都能反映其研究兴趣。另一方面,它是多语言的,论文和基金申请书通常用母语或英语撰写。此外,学术数据会随着时间的推移而增加。

目前虽然有许多方法可以处理用户聚类问题,但它们大多只适用于单一来源的数据。例如,可以使用用户聚类主题模型(UCT)或者深度学习方法将用户表示为向量,然后利用典型的聚类算法对用户进行聚类。作为示例,UCT利用单一数据源的信息对用户的兴趣进行建模,通过对时间进行划片,获取不同时间片内的用户兴趣语义表示。然后利用K-means聚类算法对用户的兴趣语义表示结果进行聚类,最终得到用户的聚类结果。该方法仅仅使用单一来源的数据,而且也仅仅利用了单一的语言,将其用在学者用户兴趣语义表示时,其表示质量有待提升。此外,K-Means存在一定的局限性,尤其是需要提前设定K值,这就使得用户聚类的效果鲁棒性比较受限。

用多源数据代替单源数据可以更全面、准确地挖掘并表示用户的兴趣,聚类的有效性取决于用户兴趣语义表示的质量。然而,大多数学者的相关研究只是以论文为材料,而忽略科研项目数据。此外,多源数据并不能直接合并在一起。这是因为,不同来源的数据量存在较大的区别,比如学者主持的基金项目数量往往较少,发表论文的数量则几十倍甚至百倍于学者的基金项目数量。如果简单地混合使用不同来源的数据,那小样本源的影响将会被大样本源淹没。因此,多源数据的信息集成是一个挑战。

聚类学者面临的另一个挑战是如何充分利用多语言数据的丰富语义。对于大规模的多语言语料库,将多种语言翻译成一种语言是不现实的,这是因为翻译过程会引入错误并耗费时间和精力。典型的多语言数据处理方法是基于概率主题模型或词嵌入方法。但是这些方法都要求不同语言之间有很强的关联,例如具有翻译对应关系的句子对、词语对、或者文档对。然而,学者用不同语言呈现的学术数据则缺乏明确的翻译对应关系。因此,如果要充分利用多语言的学术数据,就需要能够找到不同语言之间关联的桥梁。

例如,用户协同兴趣追踪模型(UCIT)利用了不同来源的数据对用户兴趣进行追踪。该模型同时利用用户本身的数据和用户的粉丝数据对用户兴趣进行挖掘,相比仅利用单一来源其效果有较大提升。该模型虽然利用了多源数据,但是其仅利用了单一的语言,没有同时利用不同的语言对用户进行建模。而且在用户聚类阶段,同样使用了K-means,因此也会受K-means的局限性的影响。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111072396.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top