[发明专利]通过对开放域事实的贝叶斯结构学习来学习实体、关系词和概念之间的可解释关系在审
申请号: | 202080005173.6 | 申请日: | 2020-06-16 |
公开(公告)号: | CN114365122A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 张婧媛;孙明明;李平 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司;百度(美国)有限责任公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 100080 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 开放 事实 贝叶斯 结构 学习 实体 系词 概念 之间 可解释 关系 | ||
概念图创建为用于开放领域知识中的文本理解的通用分类法。概念图中的节点包括实体和概念两者。边缘是从实体到概念,表明实体是概念的实例。本文中呈现了处理从开放域事实学习可解释关系以丰富和细化概念图的任务的实施方式。在一个或多个实施方式中,从开放域事实学习贝叶斯网络结构作为实体的事实和概念的关系词之间的可解释关系。在英文和中文数据集上进行了广泛的实验。与现有技术方法相比,所学习的网络结构基于英文和中文数据集两者上的实体的关系词来提高对实体概念的识别。
技术领域
本公开总体上涉及用于计算机学习的系统和方法,其可提供改进的计算机性能、特征和使用。更具体地,本公开涉及用于学习实体、关系词和概念之间的可解释关系的系统和方法。
背景技术
概念图通常被创建为用于开放领域知识中的文本理解和推理的通用分类法。概念图中的节点可包括实体和概念两者。边缘通常是从实体到概念,表明实体是概念的实例。例如,实体“加拿大”可经由边缘链接到“国家”的概念,以指示“加拿大”是“国家”的实例。
至少几十年以来,从用户生成的文本中提取和构建概念图的任务已经吸引了许多研究关注。这些方法中的大多数依靠高质量的句法模式来确定实体是否属于概念。例如,假定模式“X是Y”或“Y,包括X”出现在句子中,则可推断实体X是概念Y的实例。然而,如示例所示,这些基于模式的方法要求实体和概念对在句子中共存。然而,由于某一概念的不同表达,实体和概念可能很少一起出现在句子中。对从维基百科(Wikipedia)中提取的数百万句子进行数据分析,发现在来自概念图的超过六百万对的句子中,只有10.61%的实体-概念对共存。对百度百科(baike.baidu.com)及其相应的概念图进行了分析。观察到类似的现象,只有8.56%的实体-概念对在句子中共存。表1示出了两个数据集的统计信息。由于这种限制,现有的方法在帮助从开放域文本构建完整的概念图方面存在困难。
表1:在来自数据集1(英文)和数据集2(百度百科(中文))的句子中共存的实体-概念对。
假设开放域信息(诸如用户生成的数据)中的共存性相对较低,则找到概念图的实体-概念关系词可能是极具挑战性的。
因此,需要新的系统和方法来生成概念图和/或丰富和细化概念图。
发明内容
本公开的实施方式提供了一种计算机实施的方法、一种非暂时性计算机可读介质或媒介以及一种系统。
根据第一方面,本公开的一些实施方式提供了一种计算机实施的方法,所述方法包括:获取概念图中标识为与概念相关联的实体集合;搜索包括来自开放域信息的事实的信息储存库,以获取包括来自实体集合的、作为事实的主语或宾语的实体的事实集合,其中,每个事实均包括主语实体、宾语实体、以及表示主语实体与宾语实体之间的谓语或关系的关系词;使用事实集合中的至少一些事实来生成概念的肯定数据观察,肯定数据观察将实体集合中的实体中的至少一些实体与来自事实集合的一个或多个关系词相关联;使用肯定数据观察中的至少一些和贝叶斯网络结构学习方法来学习用于概念的贝叶斯网络,以发现实体、关系词与概念之间的网络结构;以及输出所学习的用于概念的贝叶斯网络,以用于预测新实体是否是概念的实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司;百度(美国)有限责任公司,未经百度时代网络技术(北京)有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080005173.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:主销装置
- 下一篇:图腾柱无桥功率因数校正电路和电力电子设备