[发明专利]一种企业知识图谱实体链接模型的构建方法及装置在审
申请号: | 202110845479.9 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113553400A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 朱安安;邱彦林;赵粉玉;俞一奇 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/216;G06F40/295;G06K9/62;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 知识 图谱 实体 链接 模型 构建 方法 装置 | ||
本发明涉及一种企业知识图谱实体链接模型的构建方法及装置,包括对待链接企业实体进行企业名称实体识别标注;进行行业门类分类和模糊匹配,得到精准行业类别,对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体;待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。本发明根据企业名称构造的特性,对序列标注得到的行业信息、地点信息以及企业专有名词信息分别进行相似度计算,并予以不同的权重,从而得到更为合理的企业名称之间的相似度值,根据相似度值大小完成实体链接的工作。
技术领域
本发明涉及信息处理技术领域,具体为一种企业知识图谱实体链接模型的构建方法及装置。
背景技术
随着信息技术的发展,网络上充斥着越来越多元化的文本数据信息,基于行业知识图谱的语义搜索、智能推理等应用越来越广泛。而在构建知识图谱的过程中,对于一个实体,往往有着不同的命名或描述方式。特别是在企业知识图谱中,一个企业实体可能拥有着多种别称、简称或不规范描述的情况,这对知识图谱构建的准确性造成了一定的影响。也为企业知识图谱数据扩充与实体链接的工作带来了不小的挑战。
目前的企业知识图谱构建中,针对企业实体链接往往采用两种方式:第一种是根据企业的如法人、组织关系等相关关联信息构建特征工程进行实体链接;另一种是通过企业名称硬匹配或模糊匹配的方式完成实体链接。第一种方法准确性较高,但往往需要较多的企业关联信息,若仅仅在文本中获取了企业的名称而无其他额外信息则难以完成准确的实体链接。对于第二种方法,由于企业名称为短文本数据,且对于除描述地点、行业外的信息一字之差往往就代表着不同的企业,因此,采用模糊匹配或硬匹配的实体链接模型准确率较低。鉴于此,需要一种针对企业知识图谱的实体链接模型来进行企业名称的实体链接。
发明内容
本发明要解决的问题是针对企业名称实体的特殊情况,构建一种企业实体链接模型,对于文本中抽取到的采用简称、别称等的企业名称链接至企业知识图谱中。并同时在企业名称中抽取出行业、地点及关联公司等相关信息,用这些信息对企业知识图谱进行补充。
本发明技术方法是:
一种企业知识图谱实体链接模型的构建方法,其包括以下步骤:
s1:对待链接企业实体进行企业名称实体识别,并进行序列标注;
s2:对标注为行业实体的文本进行行业门类分类,在分入的行业门类下进行行业子类目的模糊匹配,得到精准行业类别;
s3:按照企业名称结尾标记对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体;
s4:待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。
优选地,s1中采用Bi-LSTM-CRF进行实体识别。
优选地,s1中企业名称实体识别具体包括以下步骤:
s11文本数据处理:在训练阶段,对每个企业名称进行实体识别,进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾;
s12数据标注:对文本按字进行拆分,按照BMESO的策略给予每个字一个标签,非实体则全部标注为“O”,实体长度为一个字符,则该实体直接标注为“S_实体名称”,否则将该实体的开头字符标注为“B_实体名称”,中间字标注为“M_实体名称”,最后一个字标注为“E_实体名称”
s13实体识别模型建立:采用one-hot对输入文本按字进行编码,编码后向量即为模型的输入向量;将向量输入Bi-LSTM模型中,经过Bi-LSTM模型编码得到输入的每个字的最终状态向量,保存最终状态向量,将最终状态向量输出CRF模型进行解码,得到最终的序列标注结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110845479.9/2.html,转载请声明来源钻瓜专利网。