[发明专利]限定领域的实体链接方法和装置在审
申请号: | 202010108590.5 | 申请日: | 2020-02-21 |
公开(公告)号: | CN113297386A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 侯磊;张馨如;史佳欣;李涓子;张鹏;唐杰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 限定 领域 实体 链接 方法 装置 | ||
本发明实施例提供一种限定领域的实体链接方法和装置,所述限定领域的实体链接方法包括:通过实体提及‑知识库实体字典,获取待链接文本中的实体提及和候选实体集;将获取的所述实体提及和候选实体集的全局特征和局部特征输入到实体消歧模型,获得所述实体消歧模型输出的所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率;根据所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率,确定待链接文本的实体链接。本发明实施例的限定领域的实体链接方法,可以免去人工标注工作,且链接准确率高。
技术领域
本发明涉及实体链接技术领域,更具体地,涉及一种限定领域的实体链接方法和装置。
背景技术
实体链接的目标在于将文本中出现的实体提及链接到知识库实体上。这是自然语言处理(NLP)领域中的基础任务,能够为领域内的其他任务提供支持,例如问答系统、关系抽取等,因此,近年来,实体链接的相关技术蓬勃发展。
实体链接的主要挑战在于实体提及的歧义性。一个实体提及可能指代多个知识库实体,而一个知识库实体往往有多种提及方式。这一技术的另一挑战是,在实践中,一个实体链接系统应当链接到更有意义的,更具体化的实体。
现有的实体链接方法通常包括四个步骤:1.从文本中找到所有的实体提及;2.找到实体提及有可能指代的所有的知识库实体;3.对实体提及、知识库实体、上下文信息等进行特征表示,这一步骤往往通过表示学习来得到在同一语义空间的特征向量;4.使用分类或学习排序算法进行实体消歧。
现有的实体链接方法面临如下挑战:1.对于通用领域的实体链接,由于一个实体提及可能指代上百知识库实体,而对应的神经网络模型的参数数量将使得模型的训练效率极低,对应地,准确率也大打折扣。2.面向通用领域的实体链接方法往往会链接到过多的泛化的、通用的实体,这些链接结果在实际应用,尤其是面向大众用户的应用中意义不大。3.对于限定领域的实体链接模型的训练需要大量领域标注数据,而数据的标注成本太高而难以实现。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的限定领域的实体链接方法、装置、电子设备和可读存储介质。
第一方面,本发明实施例提供一种限定领域的实体链接方法,包括:通过实体提及-知识库实体字典,获取待链接文本中的实体提及和候选实体集;将获取的所述实体提及和候选实体集的全局特征和局部特征输入到实体消歧模型,获得所述实体消歧模型输出的所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率;根据所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率,确定待链接文本的实体链接;其中,所述实体提及-知识库实体字典为,根据预先构建的领域数据集确定,所述领域数据集包括目标百科中现存的实体提及和对应的知识库实体;所述实体消歧模型使用多层感知机来整合不同的特征,使用图卷积网络在候选实体和其上下文实体之间传递信息,所述实体消歧模型为,以所述领域数据集中任一训练语料的全局特征样本数据和局部特征样本数据为样本,以所述任一训练语料中的实体提及指代的知识库实体的概率结果为样本标签训练得到。
在一些实施例中,所述通过实体提及-知识库实体字典,获取待链接文本中的实体提及和候选实体集,包括:通过所述实体提及-知识库实体字典,构建用于字符串匹配的字典树;采取基于所述字典树的字符串匹配算法得到文本中出现的所有实体提及,对于存在冲突的实体提及,选取最长的或者出现次数最多的实体提及作为匹配结果,同时得到所述候选实体集。
在一些实施例中,所述全局特征样本数据和所述局部特征样本数据为,通过对所述领域数据集中的训练语料进行向量训练时获取;其中所述对所述领域数据集中的训练语料进行向量训练包括:对所述训练语料中任一实体和词得到领域向量表示和开放域向量表示,在进行特征抽取的计算过程中,将所述领域向量和所述开放域向量连接作为实体和词的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010108590.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:样本分析系统
- 下一篇:服务的处理方法、设备及存储介质