[发明专利]一种基于强化学习增强的图嵌入专家实体对齐方法在审
申请号: | 202210060387.4 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114819152A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 邵健;胡单春;鲁伟明;庄越挺;宗畅 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 增强 嵌入 专家 实体 对齐 方法 | ||
1.一种基于强化学习增强的图嵌入专家实体对齐方法,其特征在于,包括如下步骤:
步骤1:获得两个人才知识库的数据G1=(E1,T1,R)和G2=(E2,T2,R),其中E代表实体集合,实体类型包括专家实体、论文实体;R代表关系集合;T代表三元组集合,是E×R×E的子集;
步骤2:对于某一人才知识库中的每一专家实体e,根据专家姓名,通过候选实体对生成模块,基于正则匹配模板生成器的方法从另一个人才知识库汇中生成候选专家集合C;
步骤3:对于每个候选专家c∈C,构建关于实体对e,c的2-hop异构子图HG=(V,H,T,R),其中H1、H2分别代表两个人才知识库的实体初始向量集合;初始的节点向量表示h(0):
hstruct=LINE(G)
其中表示向量拼接操作,hattr为实体各属性特征通过skip-gram模型获得的词向量的平均向量,hstruct则是通过LINE模型对知识库中每个实体的结构信息进行编码得到的结构向量;
步骤4:在节点向量更新模块,在每一层图嵌入层中,使用基于自监督信号的可靠性度量方法计算每条边的可靠性;
步骤5:在每一层图嵌入层中,对异构子图HG,使用top-p采样策略,根据步骤4计算所得的可靠性,从大到小对每种关系采样pr条可靠边,并使用基于强化学习的节点采样数量更新策略更新节点采样数量;
步骤6:在每一层图嵌入层中,获得采样后的异构子图后,使用基于特征线性调制的图嵌入学习算法更新节点向量;
步骤7:经过L层图嵌入层后,取出更新后的待对齐实体对e,c的节点向量和通过多层感知机计算匹配概率
步骤8:根据所有候选实体的匹配概率,取概率最高的候选专家为匹配专家。
2.根据权利要求1所述的基于强化学习增强的图嵌入专家实体对齐方法,其特征在于,所述的方法在应用前先通过训练集进行训练,训练完成后再应用于专家实体对齐;
在训练过程中,专家实体对齐任务的损失除了基于自监督信号的可靠性度量方法的平均边采样损失外,还包括所有待对齐实体对的对齐损失该损失的目标是使得对齐的专家实体对的向量表示对ze,zc经过多层感知机后得到的概率越高,接近于1,而非对齐的向量表示对的分数接近于0。
3.根据权利要求1所述的基于强化学习增强的图嵌入专家实体对齐方法,其特征在于,所述的步骤2具体包括如下步骤:
步骤2-1:分别处理中英文姓名,使用姓名解析器生成解析字典;
步骤2-2:将姓名解析器生成的解析字典作为模板生成器的输入,输出相应的正则模板。
4.根据权利要求1所述的基于强化学习增强的图嵌入专家实体对齐方法,其特征在于,所述的步骤2-1中,对于英文姓名,先进行姓氏和名字的解析,判断姓氏和名字的顺序是否唯一,然后生成解析字典,对于中文姓名,将中文姓名转换为拼音形式,即转化为英文名字,同时考虑多音字与复姓,生成中间解析结果后同英文名处理。
5.根据权利要求1所述的基于强化学习增强的图嵌入专家实体对齐方法,其特征在于,所述的步骤2-2中,首先根据是否能确定姓氏与名字的顺序,然后判断名字是否为缩写,最后根据“姓在前”与“姓在后”两种顺序生成2组或4组正则模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060387.4/1.html,转载请声明来源钻瓜专利网。