[发明专利]一种实体链接方法与系统在审
申请号: | 201510632808.6 | 申请日: | 2015-09-29 |
公开(公告)号: | CN105224648A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 薛昊原 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 链接 方法 系统 | ||
1.一种实体链接方法,其特征在于,包括:
预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
从所述预设知识库中分别检索各所述提及词的候选实体;
将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
2.根据权利要求1所述的方法,其特征在于,所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
3.根据权利要求2所述的方法,其特征在于,预处理输入文本和预设知识库包括:
将所述输入文本中识别出的提及词定义为提及词序列;
将所述输入文本进行分词,去掉所述输入文本中的预设停用词,得到分词序列;
设定提及词的上下文提及词序列为其周围的预设提及词数量的提及词;
设定提及词的上下文分词序列为其周围的预设分词数量的分词;
设定实体关键词描述各实体;
设定提及词的候选实体集。
4.根据权利要求2所述的方法,其特征在于,根据先验概率、提及词与实体的名称相似度和提及词与实体的上下文相似度计算各所述明确提及词与所述预设知识库中实体的相似度。
5.根据权利要求1所述的方法,其特征在于,所述阈值为3~5。
6.根据权利要求1所述的方法,其特征在于,所述提及词与实体对应关系图包括提及词对应实体边和实体对应实体边。
7.一种实体链接系统,其特征在于,包括:
预处理模块,用于预处理输入文本和预设知识库,获取所述输入文本中的各提及词、各所述提及词的上下文以及所述预设知识库中的实体关键词;
候选实体检索模块,用于从所述预设知识库中分别检索各所述提及词的候选实体;
提及词分类模块,用于将各所述提及词根据其候选实体的数量分类,将候选实体数量小于预设阈值的各提及词分别设定为明确提及词,将候选实体数量大于或等于预设阈值的各提及词分别设定为不明确提及词;
第一阶段链接模块,用于对各所述明确提及词进行第一阶段的实体链接:通过各所述明确提及词与所述预设知识库中实体的相似度,以及所述预设知识库中实体间的相似度,利用预设的提及词与实体对应关系图方法为各所述明确提及词筛选出对应的目标实体;
第二阶段链接模块,用于根据已经链接的所述目标实体,对各所述不明确提及词利用预设的提及词与实体对应关系图方法进行第二阶段的实体链接。
8.根据权利要求7所述的系统,其特征在于,所述提及词的上下文包括:
上下文提及词序列和上下文分词序列。
9.根据权利要求7所述的系统,其特征在于,所述阈值为3~5。
10.根据权利要求7所述的系统,其特征在于,所述提及词与实体对应关系图包括提及词对应实体边和实体对应实体边。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510632808.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浏览器被劫持时的处理方法及处理设备
- 下一篇:信息分类方法及装置