[发明专利]限定领域的实体链接方法和装置在审
申请号: | 202010108590.5 | 申请日: | 2020-02-21 |
公开(公告)号: | CN113297386A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 侯磊;张馨如;史佳欣;李涓子;张鹏;唐杰 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 限定 领域 实体 链接 方法 装置 | ||
1.一种限定领域的实体链接方法,其特征在于,包括:
通过实体提及-知识库实体字典,获取待链接文本中的实体提及和候选实体集;
将获取的所述实体提及和候选实体集的全局特征和局部特征输入到实体消歧模型,获得所述实体消歧模型输出的所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率;
根据所述候选实体集中的候选实体是所述实体提及指代的知识库实体的概率,确定待链接文本的实体链接;
其中,所述实体提及-知识库实体字典为,根据预先构建的领域数据集确定,所述领域数据集包括目标百科中现存的实体提及和对应的知识库实体;
所述实体消歧模型使用多层感知机来整合不同的特征,使用图卷积网络在候选实体和其上下文实体之间传递信息,所述实体消歧模型为,以所述领域数据集中任一训练语料的全局特征样本数据和局部特征样本数据为样本,以所述任一训练语料中的实体提及指代的知识库实体的概率结果为样本标签训练得到。
2.根据权利要求1所述的限定领域的实体链接方法,其特征在于,所述通过实体提及-知识库实体字典,获取待链接文本中的实体提及和候选实体集,包括:
通过所述实体提及-知识库实体字典,构建用于字符串匹配的字典树;
采取基于所述字典树的字符串匹配算法得到文本中出现的所有实体提及,对于存在冲突的实体提及,选取最长的或者出现次数最多的实体提及作为匹配结果,同时得到所述候选实体集。
3.根据权利要求1所述的限定领域的实体链接方法,其特征在于,所述全局特征样本数据和所述局部特征样本数据为,通过对所述领域数据集中的训练语料进行向量训练时获取;其中
所述对所述领域数据集中的训练语料进行向量训练包括:对所述训练语料中任一实体和词得到领域向量表示和开放域向量表示,在进行特征抽取的计算过程中,将所述领域向量和所述开放域向量连接作为实体和词的向量表示。
4.根据权利要求1-3中任一项所述的限定领域的实体链接方法,其特征在于,预先构建所述领域数据集,包括:
将目标百科的各个实体所述的类别随机排序,得到与所述实体对应的类别序列,所述各个实体各自对应的类别序列组成训练语料;
通过预测上下文类别的方法得到任一类别序列的向量表示;
确定任一领域对应的领域类别集,所述领域类别集包括与所述领域对应的多个百科类别;
根据所述数据领域类别集中类别的实体与所述领域类别集,获得所述领域数据集。
5.根据权利要求4所述的限定领域的实体链接方法,其特征在于,所述确定任一领域对应的领域类别集,所述领域类别集包括与所述领域对应的多个百科类别,包括:
确定任一领域对应的百科一级类别cd;
根据预设的最大遍历层数,自顶向下从所述百科一级类别cd开始按层遍历目标百科的分类体系;
将预设的前k层的类别加入到领域类别集;
在遍历过程中,计算任一类别cj与已加入到领域类别集的类别的向量表示的均值计算任一类别cj与已加入到领域类别集的类别的相似度,并选择相似度排序前预设值x%的加入到领域类别集Cd中。
6.根据权利要求1-3中任一项所述的限定领域的实体链接方法,其特征在于,所述全局特征用以表征对于一段文本链接到的所有实体的语义一致性,所述局部特征用于表征链接到的知识库实体与局部上下文的语义一致性。
7.根据权利要求6所述的限定领域的实体链接方法,其特征在于,
所述全局特征包括实体图特征以及任一实体与上下文实体提及的相似度特征;
所述局部特征包括字符串相似度和上下文相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010108590.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:样本分析系统
- 下一篇:服务的处理方法、设备及存储介质