[发明专利]一种基于知识图谱建立实体统一模型及实体统一方法在审
申请号: | 202110421927.2 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113032582A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 朱安安;邱彦林;赵粉玉;俞一奇 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 建立 实体 统一 模型 方法 | ||
1.一种基于知识图谱建立实体统一模型的方法,其特征是,所述方法包括:
构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据,其中,所述描述信息包括描述语料和命名语料,所述描述语料通过知识图谱的结构化数据中获得,所述命名语料通过知识图谱的非结构化数据获得,所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得,其中,所述实体以三元组数据的头实体、关系以及尾实体表示;
采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别;
将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练,其中,所述BERT+Bi-LSTM模型训练的损失函数为:
L=Loss1+Loss2,其中,Loos1为命名实体识别的损失函数,Loos2为基于所述TransH模型的评分函数,Loss2=ES+ED,其中,ES是基于所述结构表示向量的三元组评分函数,其中γ>0是一个边缘超参数,T是事实三元组样本集,T′是T的负样本集,负样本集的产生规则依与所述TransH模型样本生成规则相同,ED为基于所述描述信息的三元组评分函数,ED共有三部分组成,即将头实体向量和尾实体向量都改为基于所述描述表示向量hd和td产生一个评分,分别将hs和ts的其中一个使用基于所述描述信息表示,另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数,
将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。
2.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,所述描述语料通过知识图谱的结构化数据中获得包括:
基于所述知识图谱的结构化数据,选取所述实体的描述文本作为所述描述语料,其中,所述描述文本至少包括所述实体的名称;
当所述实体不存在描述文本或所述描述文本中不包括所述实体的名称时,通过构建的描述生成文本生成所述描述语料。
3.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,所述命名语料通过知识图谱的非结构化数据获得包括:
在构建所述知识图谱时,对所述非结构化数据进行命名实体的识别,获得所述命名语料。
4.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量包括:
对事实三元组样本集T和负样本集T′中不重复的三个所述实体的描述文本进行拼接,获得一个长句子输入所述BERT+Bi-LSTM模型,按照字拆分得到每个字的字向量,将三个所述实体的字向量的平均值作为每个所述实体的描述表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110421927.2/1.html,转载请声明来源钻瓜专利网。