[发明专利]一种知识图谱抽取方法、系统、电子设备及介质有效
申请号: | 202111284929.8 | 申请日: | 2021-11-01 |
公开(公告)号: | CN113987152B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 王绪刚;刘栋梁;王新梅 | 申请(专利权)人: | 北京欧拉认知智能科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/211;G06F40/289 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 陈秋霞 |
地址: | 100000 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 抽取 方法 系统 电子设备 介质 | ||
本发明涉及知识图谱抽取技术领域,其目的在于提供一种知识图谱抽取方法。本发明公开了一种知识图谱抽取方法,包括:获取指定目标场景下的文本段落数据;抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据;基于图神经网络模型,得到所述图结构数据中所有文本要素的特征编码;根据文本要素的特征编码,通过聚类计算,得到图结构数据内知识图谱对应的实体群簇和关系群簇。本发明可提高知识图谱抽取效率,同时提高了图谱抽取的准确度。
技术领域
本发明涉及知识图谱抽取技术领域,特别是涉及一种知识图谱抽取方法、系统、电子设备及介质。
背景技术
当前知识图谱已经应用于KBQA(Knowledge Base Question Answering,知识库问答)系统、语义搜索系统及推荐系统等众多形式的系统中,但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
图谱元素的抽取成本仍然很高,具体地,现有的图谱元素的抽取方式主要包括规则抽取和有监督模型抽取两类,由于不同场景下生产系统中数据形式的多样性和描述形式的复杂性,规则抽取的开发和维护成本居高不下,有监督模型抽取又因为人工精准地标注句子级别的数据代价十分高昂,需要耗费大量的时间和人力;另外,采用规则抽取和有监督模型抽取,无法加入知识结构的考量,造成了抽取任务上的信息损失,影响了抽取准确性,知识结构信息利用率低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种知识图谱抽取方法、系统、电子设备及介质。
本发明采用的技术方案是:
本发明提供了一种知识图谱抽取方法,包括:
获取指定目标场景下的文本段落数据;
抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据;
基于图神经网络模型,得到所述图结构数据中所有文本要素的特征编码;
根据文本要素的特征编码,通过聚类计算,得到图结构数据内知识图谱对应的实体群簇和关系群簇。
在一个可能的设计中,获取指定目标场景下的文本段落数据,包括:
收集指定目标场景下的文件数据;
对所述文件数据进行解析,得到所述文件数据中的初始文本数据;
对所述初始文本数据进行清洗,得到清洗后文本数据;
对所述清洗后文本数据进行段落拆解,得到指定目标场景下的文本段落数据。
在一个可能的设计中,所述文本要素包括主语名词、谓语名词和宾语名词;抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据,包括:
通过HMM对所述文本段落数据进行分词,得到多个名词,并识别出每个名词的词性;
通过分类模型依次判断每个名词的词性是否为谓语,若是,则将谓语名词作为一个文本段落数据的中心;
获取当前文本段落数据中,与谓语名词前后相邻的名词,并根据对应名词与谓语名词的位置关系,得到对应名词的主语或宾语词性,最终得到当前文本段落数据中的所有主语名词、谓语名词和宾语名词;
基于所有主语名词、谓语名词和宾语名词,组建出主谓宾句式结构的图结构数据。
在一个可能的设计中,基于所有谓语名词、主语名词和宾语名词,组建出主谓宾句式结构的图结构数据,包括:
以主语名词和宾语名词为节点,以谓语名词为边,依照各谓语名词、主语名词和宾语名词之间的位置关系,组建出主谓宾句式结构的图结构数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧拉认知智能科技有限公司,未经北京欧拉认知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111284929.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数控机床防碰撞控制方法及数控机床
- 下一篇:一种锅炉排污废水回收处理设备