[发明专利]用于独立于领域的术语链接的系统和方法在审

专利信息
申请号: 201880090468.0 申请日: 2018-12-27
公开(公告)号: CN111742321A 公开(公告)日: 2020-10-02
发明(设计)人: 丁海波;贺一帆;赵林;徐魁;冯哲 申请(专利权)人: 罗伯特·博世有限公司
主分类号: G06F40/30 分类号: G06F40/30;G06F40/216;G06N5/02
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 张健;刘春元
地址: 德国斯*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 立于 领域 术语 链接 系统 方法
【说明书】:

一种自动术语链接系统包括候选者生成器,所述候选者生成器被配置成针对要链接到知识库节点的每个术语来标识候选者节点。伪候选者生成器被配置成针对无候选者术语来标识伪候选者节点。候选者评分器被配置成:使用针对这些节点的出现统计信息和共现统计信息、通过集体推理来分别对候选者节点和伪候选者节点进行评分。伪候选者生成器被配置成:将与所述无候选者术语在语义上相关的知识库节点标识为针对所述无候选者术语的伪候选者节点。

相关申请的交叉引用

本申请要求Ding等人于2017年12月29日提交的题为“SYSTEM AND METHOD FORDOMAIN-INDEPENDENT TERMINOLOGY LINKING”的美国临时申请序列号62/611,575的优先权,该申请的公开内容通过引用在此整体地并入本文中。

技术领域

发明涉及自然语言处理(NLP)、信息提取、术语处理和人机交互(HMI)的领域。

背景技术

知识库(KB)处于现代智能系统的最重要的支柱之中。KB既作为独立的产品或服务而提供,又使得能够实现下游应用,诸如问题回答和语义搜索:例如,为了由汽车专业人士来回答关于“直接注入”的问题,许多系统都依赖于关于汽车术语的预先构建的知识库。在这种系统中,重要的第一步是将自然语言短语“直接注入”链接到KB中的节点。这被称为实体链接(EL)。

关于EL的大多数现有工作聚焦于经命名的实体,即人员、组织和位置名称。但是对于例如工业环境中基于特定于领域的知识的应用而言,向DIY用户推荐动力工具(powertool)的系统或者支持汽车维修活动的系统需要特定于领域的术语也链接到KB节点。本发明公开提出了一种具有术语链接能力以支持各种工业用例的EL系统。

将短语准确地链接到KB节点是困难的任务。首先,该短语可能不直接对应于KB节点的名称。例如,关于维修汽车的文档中的短语“混合动力”应当很可能链接到“混合动力车辆”,但是这两个表面形式并不相同。另外,短语可能是不明确的:单词“疲劳”在医学文档中可能意指“疲劳(医学)”,或者在材料科学文档中可能意指“疲劳(金属)”。

从大型语料库中收集出现和共现(co-occurrence)统计信息,其中短语被手动链接到KB节点(实际上是维基百科)以解决这些问题。出现统计信息用于测量一陈述链接到节点的可能性,即如果“混合动力”频繁地链接到语料库中某处的“混合动力车辆”,则当该系统在未见过的文本中遇到“混合动力”时,其将能够提出“混合动力车辆”。共现统计信息测量两个实体在同一文档中一起出现的可能性,以使得如果在该文档中基于“疲劳”与“铸铁”之间的关联而存在另一个实体“铸铁”,则该系统将能够确定“疲劳”很可能意指“疲劳(金属)”。

使术语链接特别困难的一个挑战是:技术文档中的许多术语是新兴的或高度特定的概念,而KB尚未涵盖这些概念。作为结果,针对这些术语,不存在共现统计信息。

附图说明

图1是根据本公开的独立于领域的术语链接系统的工作流程图。

图2示出了图1的系统的高级架构。

具体实施方式

出于促进对本公开原理的理解的目的,现在将参考附图中所图示、并且在以下书面说明书中描述的实施例。要理解的是,由此不意图对本公开的范围进行限制。要进一步理解的是,本公开包括对所说明的实施例的任何更改和修改,并且包括本公开所属领域的普通技术人员将通常想到的对本公开原理的进一步应用。

本公开涉及一种用于将文本媒体(诸如,学术论文、技术报告和用户生成的内容)中的术语链接到知识库(KB)节点(例如,维基百科页面)的计算系统和方法。相比之下,现有技术中的大多数系统仅聚焦于经命名的实体(人员、组织和位置名称)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880090468.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top