[发明专利]面向学者聚类的研究兴趣挖掘方法、装置和存储介质有效
申请号: | 202111072396.7 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113515638B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 寇菲菲;王文东;杜军平;李昂;薛哲;梁美玉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 学者 研究 兴趣 挖掘 方法 装置 存储 介质 | ||
1.一种面向学者聚类的研究兴趣挖掘方法,其特征在于,该方法包括以下步骤:
基于多源学者相关学术数据构造学术元数据集合,所述学术元数据集合中的每条学术元数据包括如下信息:专业领域信息、数据源信息、学者信息和文本内容信息,所述学术数据包括科研项目数据和论文数据;
将构造的学术元数据集合中的至少部分学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,通过多次迭代地执行研究兴趣挖掘模型进行采样来获得学者兴趣语义表示,所述学者兴趣语义表示包括专业领域-主题分布、主题-英文单词分布、主题-中文单词分布和主题-学者分布;其中,所述研究兴趣挖掘模型对来自同一数据源并且属于同一个专业领域的学者的数据共享同一个主题分布,并且,所述研究兴趣挖掘模型中,所述专业领域-主题分布被建模为狄利克雷分布,所述主题-英文单词分布、主题-中文单词分布和主题-学者分布被建模为多项式分布,所述专业领域-主题分布包括科研项目的专业领域-主题分布和论文数据的专业领域-主题分布;
基于获得的学者兴趣语义表示进行学者聚类,获得学者聚类结果;
其中,所述将构造的学术元数据集合中的至少部分学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,通过多次迭代地执行研究兴趣挖掘模型进行采样来获得学者兴趣语义表示,包括:
对来自科研项目且属于预定专业领域的学术元数据采样得到科研项目的专业领域-主题分布;
对来自论文且属于预定专业领域的学术元数据采样得到论文数据的专业领域-主题分布;
针对每个预定主题进行采样获得对应的主题-中文词分布、主题-学者分布和主题-英文词分布;
针对每条学术元数据中的文本内容确定其为中文还是英文;在文本内容为中文的情况下,把每条中文的学术元数据中同时出现的两个单词进行两两组合来提取双词,并针对每个双词采取以下操作:采样中文双词的主题、独立地采样两个词以及采样双词的作者;在文本内容为英文的情况下,针对每个单词采样以下操作:采样英文主题、采样每个英文单词以及采样英文单词的作者。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括构建研究兴趣挖掘模型的步骤,该步骤包括:
确定学术元数据所属于的专业领域;
从来自科研项目且属于确定的专业领域的主题分布和来自论文且属于确定的专业领域的主题分布中协同地对主题进行采样,得到学术元数据主题;
根据主题-英文单词分布、主题-中文单词分布、主题-学者分布来生成英文单词、中文单词和学者。
3.根据权利要求1所述的方法,其特征在于,所述构造学术元数据集合,包括:
确定每条学术元数据的来源,确定是科研项目数据还是论文数据;
提取当前学术元数据所属的学者;
提取每个科研项目或者论文的文本信息;
确定所述科研项目或者论文的文本信息是中文还是英文;
确定当前学术元数据所属的时段,将当前学术元数据归入所述所属的时段对应的学术元数据子集,由此构造包括所述学术元数据子集的学术元数据集合。
4.根据权利要求1所述的方法,其特征在于,
所述将构造的学术元数据集合中的至少部分学术元数据作为输入数据输入到预先建立的研究兴趣挖掘模型中,通过多次迭代地执行研究兴趣挖掘模型进行采样来获得学者兴趣语义表示,还包括:将不同时段对应的学术元数据子集中学术元数据作为输入数据输入到所述研究兴趣挖掘模型中,得到不同时刻的学者兴趣语义表示;
所述对获得的学者兴趣语义表示进行聚类包括:利用单遍聚类算法对所获取的不同时刻的学者兴趣语义表示进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111072396.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种直流转换器及稳压控制方法
- 下一篇:定制耳机组装设备及组装方法