[发明专利]一种企业知识图谱实体链接模型的构建方法及装置在审
申请号: | 202110845479.9 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113553400A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 朱安安;邱彦林;赵粉玉;俞一奇 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/216;G06F40/295;G06K9/62;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 知识 图谱 实体 链接 模型 构建 方法 装置 | ||
1.一种企业知识图谱实体链接模型的构建方法,其特征在于,其包括以下步骤: s1:对待链接企业实体进行企业名称实体识别,并进行序列标注; s2:对标注为行业实体的文本进行行业门类分类,在分入的行业门类下进行行业子类目的模糊匹配,得到精准行业类别;s3:按照企业名称结尾标记对完成实体识别的企业拆分,将拆分出的企业在知识图谱中构建关联关系并作为待链接企业实体; s4:待链接企业实体与知识图谱中的企业进行相似度评分,按照评分进行实体链接或知识图谱关系链接,完成实体链接和知识图谱数据补充。
2.根据权利要求1所述的企业知识图谱实体链接模型的构建方法,其特征在于,s1中采用Bi-LSTM-CRF进行实体识别。
3.根据权利要求2所述的企业知识图谱实体链接模型的构建方法,其特征在于,s1中企业名称实体识别具体包括以下步骤: s11文本数据处理:在训练阶段,对每个企业名称进行实体识别,进行识别的实体包括地点、企业专有名词、行业、企业类型和名称结尾; s12数据标注:对文本按字进行拆分,按照BMESO的策略给予每个字一个标签,非实体则全部标注为“O”,实体长度为一个字符,则该实体直接标注为“S_实体名称”,否则将该实体的开头字符标注为“B_实体名称”,中间字标注为“M_实体名称”,最后一个字标注为“E_实体名称”; s13实体识别模型建立:采用one-hot对输入文本按字进行编码,编码后向量即为模型的输入向量;将向量输入Bi-LSTM模型中,经过Bi-LSTM模型编码得到输入的每个字的最终状态向量,保存最终状态向量,将最终状态向量输出CRF模型进行解码,得到最终的序列标注结果;s14在预测阶段,对于获取到的待链接企业实体,将其输入训练好的序列标注模型,输出该企业的序列标注结果。
4.根据权利要求1所述的企业知识图谱实体链接模型的构建方法,其特征在于,s2中采用贝叶斯分类算法进行行业文本分类,具体包括以下步骤: s21根据国民经济行业划分,构建每个行业的类别训练数据:根据行业分类结果首先确定企业所属的国民经济行业门类,在该门类下依次与其中的大类、中类和小类的行业名称进行模糊匹配,选择行业实体与国民经济分类名称中相似度最高的类别进行链接,作为该企业的行业类别信息; s22采用贝叶斯模型对标注的数据集进行训练:将行业文本采用LAC进行分词,然后将分词后的词语通过计算词频,将文本进行向量化处理,最后对向量化后的文本采用贝叶斯分类器进行分类。
5.根据权利要求1所述的企业知识图谱实体链接模型的构建方法,其特征在于,s4中根据s1的实体识别结果和s2的行业分类结果,对待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算,具体步骤包括: s41对待链接企业名称A与知识图谱中的一个企业名称B进行实体识别; s42对待链接企业名称A和知识图谱中的一个企业名称B中抽取出的实体进行编码转换; s43待链接企业名称A和知识图谱中的一个企业名称B进行实体相似度计算,不同类型的实体给予不同的权重,综合计算最终两企业名称的相似度。
6.一种企业知识图谱实体链接模型的构建装置,其特征在于,包括:名称序列标注模块,用于企业名称实体识别和序列标注;行业实体分类与匹配模块,用于行业实体的门类分类和个门类下小类目的模糊匹配;
行业名称拆解模块,用于对企业名称中包含母公司的企业进行拆分,并将拆分结果作为企业之间的关系存储至企业知识图谱中,完成企业知识图谱企业间关系的补充;行业相似度打分模块,用于待链接企业实体与知识图谱中存储的企业实体依次进行相似度计算,进行实体链接。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110845479.9/1.html,转载请声明来源钻瓜专利网。