[发明专利]一种基于LightGBM分类与表示学习的姓名消歧方法和系统有效
申请号: | 202111153524.0 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113962293B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 董昊;宁致远;杜一;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06F40/289;G06F16/36;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lightgbm 分类 表示 学习 姓名 方法 系统 | ||
本发明面向科学文献数据,针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。本发明能够在不损失精确率与召回率的前提下,达到高可扩展性与稳定性,并且可以完全实现并行化计算,以加快执行效率。
技术领域
本发明属于信息技术领域,具体涉及一种基于LightGBM分类与表示学习的姓名消歧方法和系统。
背景技术
姓名消歧被认为是科学文献数据领域的焦点任务。它主要应用于文献数据管理、分析、学者检索、构建学者社交网络等。随着近年来科学文献数量的急剧增长,学者数量也随之增长,学者的重名率愈来愈高,使得同名消歧任务面临巨大的挑战。此前,姓名消歧任务已在国内外提出诸多解决方案,由于数据具有多源性,且应用场景的复杂性,消歧方法仍存在优化空间。
CN111008285A提出了一种基于论文关键属性网络的消歧方法,利用论文之间的关系形成关键属性关系网,通过结合匹配作者名和作者相关信息解决同名歧义问题;CN111191466A提出了一种基于网络表征和语义表征的同名作者消歧方法,通过文本表征和论文间关系表征生成相似度,再聚类生成作者消歧结果;CN111930955A提出了一种反向分类的消歧方法,将无法通过预先训练分类模型区分的作者利用反向分类方法确定作者的所在类别;CN112131872A提出了一种基于文献与文献簇相似度的消歧方法,通过构建作者合作者关系网络与计算节点相似度并聚类,再计算聚类文献簇间的相似度并聚类实现同名消歧等。
目前多数已有消歧方案包括但不限于利用论文的语义信息、论文关系网的结构信息表征论文集或作者,再用聚类方法生成作者论文的消歧簇。这些方法在捕获论文间相似度时,涉及特征局限于语义、作者共同机构或共现作者等,鲜有方法全面考虑论文其他元信息并将其作为计算论文间相似度的特征信息,还存在一定的完善空间。
发明内容
本发明面向科学文献数据,针对文献中作者同名现象提出一种基于分类算法与表示学习算法相结合的姓名消歧方案。
本发明采用的技术方案如下:
一种基于LightGBM分类与表示学习的姓名消歧方法,包括以下步骤:
利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧。
进一步地,所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,包括:
针对数据预处理后的所有论文项,提取每篇论文的7项独立特征即元信息特征,其包括:期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111153524.0/2.html,转载请声明来源钻瓜专利网。