[发明专利]一种基于LightGBM分类与表示学习的姓名消歧方法和系统有效

申请号：	202111153524.0	申请日：	2021-09-29
公开（公告）号：	CN113962293B	公开（公告）日：	2022-10-14
发明（设计）人：	董昊;宁致远;杜一;周园春	申请（专利权）人：	中国科学院计算机网络信息中心
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/30;G06F40/289;G06F16/36;G06N20/00
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lightgbm 分类表示学习姓名方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明面向科学文献数据，针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，通过采样构建正例与负例样本对数据集，作为LightGBM二分类模型的输入，模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法，来捕捉论文的语义信息和论文之间的关系特征。最后，基于监督模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现同名消歧。本发明能够在不损失精确率与召回率的前提下，达到高可扩展性与稳定性，并且可以完全实现并行化计算，以加快执行效率。

技术领域

本发明属于信息技术领域，具体涉及一种基于LightGBM分类与表示学习的姓名消歧方法和系统。

背景技术

姓名消歧被认为是科学文献数据领域的焦点任务。它主要应用于文献数据管理、分析、学者检索、构建学者社交网络等。随着近年来科学文献数量的急剧增长，学者数量也随之增长，学者的重名率愈来愈高，使得同名消歧任务面临巨大的挑战。此前，姓名消歧任务已在国内外提出诸多解决方案，由于数据具有多源性，且应用场景的复杂性，消歧方法仍存在优化空间。

CN111008285A提出了一种基于论文关键属性网络的消歧方法，利用论文之间的关系形成关键属性关系网，通过结合匹配作者名和作者相关信息解决同名歧义问题；CN111191466A提出了一种基于网络表征和语义表征的同名作者消歧方法，通过文本表征和论文间关系表征生成相似度，再聚类生成作者消歧结果；CN111930955A提出了一种反向分类的消歧方法，将无法通过预先训练分类模型区分的作者利用反向分类方法确定作者的所在类别；CN112131872A提出了一种基于文献与文献簇相似度的消歧方法，通过构建作者合作者关系网络与计算节点相似度并聚类，再计算聚类文献簇间的相似度并聚类实现同名消歧等。

目前多数已有消歧方案包括但不限于利用论文的语义信息、论文关系网的结构信息表征论文集或作者，再用聚类方法生成作者论文的消歧簇。这些方法在捕获论文间相似度时，涉及特征局限于语义、作者共同机构或共现作者等，鲜有方法全面考虑论文其他元信息并将其作为计算论文间相似度的特征信息，还存在一定的完善空间。

发明内容

本发明面向科学文献数据，针对文献中作者同名现象提出一种基于分类算法与表示学习算法相结合的姓名消歧方案。

本发明采用的技术方案如下：

一种基于LightGBM分类与表示学习的姓名消歧方法，包括以下步骤：

利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，通过采样构建正例与负例样本对数据集，输入LightGBM二分类模型进行训练，LightGBM二分类模型的输出为两篇论文属于同一作者的概率；

利用表示学习模型，通过基于元路径的关系网络表征方法捕捉论文间的关系特征，通过word2vec文本语义表示方法捕捉论文的语义特征；

基于LightGBM二分类模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现姓名消歧。

进一步地，所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，包括：

针对数据预处理后的所有论文项，提取每篇论文的7项独立特征即元信息特征，其包括：期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载