[发明专利]一种基于强化学习增强的图嵌入专家实体对齐方法在审
申请号: | 202210060387.4 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114819152A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 邵健;胡单春;鲁伟明;庄越挺;宗畅 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 增强 嵌入 专家 实体 对齐 方法 | ||
本发明公开了一种基于强化学习增强的图嵌入实体对齐方法。本发明采用构建异构子图的方式,仅对待对齐实体对的n‑hop邻居进行消息聚合,直接降低计算资源要求。使用基于特征线性调制的图嵌入学习算法,引入超网络思想,以少量参数完成高计算复杂性的消息传递机制与节点更新机制,从而更好地利用节点间的交互信息。此外,本发明提出了一种强化学习增强的节点选择器,提出并在节点选择器中应用基于自监督信号的可靠性度量方法,采样一定数量的可靠边,在限制异构子图的大小的同时过滤问题边,保证参与节点更新的边的可靠性。本发明还实现了一种基于强化学习的节点采样数量更新策略,动态优化采样节点数目,增强节点选择器。
技术领域
本发明涉及自然语言处理中的知识图谱技术领域,尤其涉及一种基于强化学习增强的图嵌入实体对齐方法。
背景技术
“21世纪的竞争是人才的竞争”,人才要素占据产业要素的核心地位。人才知识库可作为要素调度、人才推荐、项目精准投资等下游决策任务的上游数据知识支撑,是各地政府为完善和优化产业转型、合理协调并调动各大产业要素的决策依据。当前,海量的人才相关数据广泛分布在学术机构网站、学术搜索引擎等互联网平台上,存在孤岛现象严重、数据类型多样、质量参差不齐等问题。为构建一个大规模、高质量的人才知识库,整合其他人才知识库的知识是必要手段之一。专家实体作为链接不同知识库的枢纽,对于整合各个人才知识库而言十分重要。识别不同的人才知识库中表达现实世界中同一个体的专家实体的过程,称为专家实体对齐。
实体对齐通常通过比较待对齐实体对的一些特征,如实体名称、实体属性和属性值,使用一些机器学习方法或基于表示学习的方法进行相似度计算打分。然而,对于人才知识库来说,其存在的数据特征以及现实场景应用要求,对现有的实体对齐方法提出了一些要求:第一,可利用的信息减少。人才知识库中的关系与属性具有可枚举性,无需进行对齐。这一特点使得现有的一些实体对齐方法无法利用关系谓词和属性谓词的对齐信息,造成模型性能下降。第二,计算资源有限且运行结果不稳定。人才知识库中实体规模非常庞大,且每日将新增大量论文实体或专家实体,且不同专家发表的成果数量也有较大差异,在实际应用场景下可能造成一定程度上的计算不稳定性。第三,知识库中存在的问题边。在现有的各种知识库中,存在错误的三元组数据是比较普遍的情况,这些错误的问题边的存在无疑对模型判断实体对是否为同一现实实体产生消极影响。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于强化学习增强的图嵌入专家实体对齐方法。本发明的技术方案如下:
本发明提供了一种基于强化学习增强的图嵌入专家实体对齐方法,其包括如下步骤:
步骤1:获得两个人才知识库的数据G1=(E1,T1,R)和G2=(E2,T2,R),其中E 代表实体集合,实体类型包括专家实体、论文实体;R代表关系集合;T代表三元组集合,是E×R×E的子集;
步骤2:对于某一人才知识库中的每一专家实体e,根据专家姓名,通过候选实体对生成模块,基于正则匹配模板生成器的方法从另一个人才知识库汇中生成候选专家集合C;
步骤3:对于每个候选专家c∈C,构建关于实体对e,c的2-hop异构子图 HG=(V,H,T,R),其中H1、H2分别代表两个人才知识库的实体初始向量集合;初始的节点向量表示h(0):
hstruct=LINE(G)
其中表示向量拼接操作,hattr为实体各属性特征通过skip-gram模型获得的词向量的平均向量,hstruct则是通过LINE模型对知识库中每个实体的结构信息进行编码得到的结构向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060387.4/2.html,转载请声明来源钻瓜专利网。