[发明专利]一种基于LightGBM分类与表示学习的姓名消歧方法和系统有效
申请号: | 202111153524.0 | 申请日: | 2021-09-29 |
公开(公告)号: | CN113962293B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 董昊;宁致远;杜一;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06F40/289;G06F16/36;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lightgbm 分类 表示 学习 姓名 方法 系统 | ||
1.一种基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,包括以下步骤:
利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例样本对与负例样本对数据集,输入LightGBM二分类模型进行训练,LightGBM二分类模型的输出为两篇论文属于同一作者的概率;
利用表示学习模型,通过基于元路径的关系网络表征方法捕捉论文间的关系特征,通过word2vec文本语义表示方法捕捉论文的语义特征;
基于LightGBM二分类模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现姓名消歧;
所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,包括:
针对数据预处理后的所有论文项,提取每篇论文的7项独立特征即元信息特征,其包括:期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份;
生成LightGBM模型的训练样本对,根据生成的训练样本对,提取并计算每个论文对的关联信息特征,其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息的语义嵌入向量的余弦相似度,共11项特征;其中的5项论文对对应元信息包括:论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”;利用word2vec词向量对5项元信息进行嵌入表示,作为论文元信息的语义嵌入向量;
对每一个训练样本对,组合其对应两篇论文的元信息特征和关联信息特征,共18项特征作为训练样本对的LightGBM模型输入特征。
2.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述生成LightGBM模型的训练样本对,包括:
训练样本对分为正例样本对和负例样本对,正负样本对由三元组形式进行表示:
(p1,p2,tag),其中p1与p2分别表示两篇不同的论文ID,tag为标签,当样本对为正例时tag=1,为负例时tag=0;
设trainset={name1,name2,…,namei,…,namen},其表示论文训练集中存在n个已消歧的作者姓名,其中即索引为i的作者姓名实际上存在m个作者,且他们姓名都为namei,而对于其中索引为j的作者其中paper为作者发表的论文ID;
假设p1来自而p2来自生成样本对时仅考虑训练集中同名作者的论文采样,因此严格约束i′=i″;正例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′=j″条件的论文对作为正例样本对,对于作者其共可生成正例样本对个;负例样本对生成方法为:对于训练集论文集合trainset中,组合所有满足j′≠j″条件的论文对作为负例样本对;当正负训练样本对中(p1,p2,tag)存在时,(p2,p1,tag)将被剔除。
3.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法,其特征在于,所述通过基于元路径的关系网络表征方法捕捉论文间的关系特征,包括:
以数据预处理后的数据为数据源,构建论文异质网络,论文异质网络以每一待消歧姓名为单位进行构建,节点为论文,边是依据论文间关系建立的,边共有两种:存在合作者、存在共同机构名,边权重分别为合作者数量、共同机构数量;
定义元路径,然后在每个论文异质网络由元路径指导进行有指导的随机游走并生成系列游走路径,严格要求异质网络的每个节点都被游走,随机游走的概率正比于边权重,游走方向随机但不折返上一步,一条游走路径的长度取决于预先定义的最大游走长度或当前节点无有效的下一跳节点;
利用SKIP-GRAM模型对得到的所有游走路径进行表征,最终得到每篇论文的关系表征向量,且论文关系表征向量捕获了论文间的关系特征,最后利用余弦相似度计算所有论文关系表征向量的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111153524.0/1.html,转载请声明来源钻瓜专利网。