[发明专利]用于提取语义三元组以建立知识库的系统在审
申请号: | 201911132213.9 | 申请日: | 2019-11-18 |
公开(公告)号: | CN111199795A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 达米尔·尤里克;乔治斯·斯托伊洛斯;乔纳森·穆尔;穆罕默德·胡达达迪 | 申请(专利权)人: | 巴比伦合伙有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F16/35;G06F16/33;G06F40/295;G06F40/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吴晓兵 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 语义 三元 建立 知识库 系统 | ||
1.一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:
提供与包括主动词和分类动词的非结构化文本相关联的句子,其中所述分类动词描述分类关系;
生成包括第一主语、第一关系和第一宾语的第一构架,其中第一关系包括主动词,第一主语和第一宾语均包括包含一个或多个子字符串的短语;
生成包括第二主语、第二关系和第二宾语的第二构架,其中第二关系包括分类动词,第二主语和第二宾语均包括包含一个或多个子字符串的短语;
识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;
使用第一构架生成语义三元组,并用具有公共子字符串的第二主语或第二宾语替换具有公共子字符串的第一主语或第一宾语;以及
发送所述语义三元组以作为数据模式包括在所述知识库中。
2.根据权利要求1所述的方法,其中,所述分类动词源自于基本动词。
3.一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:
提供包括主语、关系和宾语的语义三元组,其中所述主语和所述宾语均包括包含一个或多个子字符串的短语,并且所述关系包括动词;
识别所述主语的一个子字符串表达所述主语的其他子字符串与所述宾语之间的关系,或者所述宾语的一个子字符串表达所述宾语的其他子字符串与所述主语之间的关系;
通过以下操作生成修改后的语义三元组:
根据所述关系,用所述主语或所述宾语的被识别为表达所述关系的所述子字符串来替换所述三元组的所述关系;以及
用不用于替换所述三元组的所述关系的其余子字符串来替换包括表达所述关系的所述子字符串在内的所述主语或所述宾语;以及
发送所述修改后的语义三元组以作为数据模式包括在所述知识库中。
4.根据权利要求3所述的方法,其中,所识别的子字符串是从已知的表达关系的名词的预定义列表中选择的名词。
5.一种建立知识库以包括定义了与从非结构化文本导出的语义三元组相关联的概念的数据模式的计算机实现的方法,所述方法包括:
提供包括关系、主语和宾语的语义三元组,其中,所述主语或所述宾语在所述知识库中没有对应概念;
确定所述知识库中与在所述知识库中没有对应概念的所述主语或所述宾语相关的一个或多个概念;
确定与所述一个或多个概念和所述主语或所述宾语的匹配程度相对应的值;
基于所述值对所述一个或多个概念进行排序;以及
将最高排序的概念链接到在所述知识库中没有对应概念的所述主语或所述宾语。
6.根据权利要求5所述的方法,其中,确定所述知识库中与在所述知识库中没有对应概念的所述主语或所述宾语相关的所述一个或多个概念包括:生成定义所述主语或所述宾语的数值矢量,并且其中,确定与所述一个或多个概念和所述句子的匹配程度相对应的所述值包括:将所述数值矢量与所述知识库中的所述概念或每个概念的矢量进行比较以获得所述值。
7.根据权利要求5所述的方法,其中,将最高排序的概念链接到所述主语或所述宾语包括:将所述主语或所述宾语作为定义新概念的数据添加在所述数据库中,并且将所述新概念作为语义类型链接到最高排序的概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于巴比伦合伙有限公司,未经巴比伦合伙有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911132213.9/1.html,转载请声明来源钻瓜专利网。