[发明专利]一种检索词的实体链接方法及系统有效
申请号: | 201710069468.X | 申请日: | 2017-02-08 |
公开(公告)号: | CN106960001B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 王志春;文丹露 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 汤财宝 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种检索词的实体链接方法及系统,利用训练语料生成实体提及字典和向量模型;对检索词进行切分,得到每一种切分后的多个词项;当词项为提及时,从实体提及字典中提取该提及的候选实体集合,遍历所有词项,得到每一种切分对应的多个候选实体组集;对每一种切分的所有候选实体集合中的实体进行全组合,形成多个实体链接候选结果,遍历每一种切分,得到检索词对应的所有的实体链接候选结果;计算实体链接候选结果的分值,将分值最高的实体链接候选结果确定为检索词的最佳实体链接结果。通过本发明提供的方法,能够更好的解决检索词的实体链接中出现的歧义性,使产生的实体链接结果具有较高的准确率和召回率。 | ||
搜索关键词: | 一种 检索 实体 链接 方法 系统 | ||
【主权项】:
1.一种检索词的实体链接方法,其特征在于,包括:S1,利用训练语料来生成实体提及字典和词语、提及、实体的向量模型;S2,对检索词进行切分,得到检索词的所有切分形式,并得到每一种切分形式后的多个词项;S3,当词项为提及时,从所述实体提及字典中提取该提及的候选实体集合,遍历所有词项,得到每一种切分形式对应的候选实体集合;S4,对每一种切分对应的所有候选实体集合中的实体进行全组合,形成多个实体链接候选结果,遍历检索词的每一种切分,得到检索词对应的所有的实体链接候选结果;S5,利用所述词语、提及、实体的向量模型对所有的实体链接候选结果进行打分排序,确定分数最高的实体链接结果作为检索词的最佳实体链接结果;所述步骤S5进一步包括:S51,根据生成的所述词语、提及、实体的向量模型,计算每一个实体链接候选结果的多个局部特征值以及多个全局特征值;S52,使用SVMrank计算每一个实体链接候选结果的每一个局部特征值的权值以及每一个全局特征值的权值;S53,根据每一个实体链接候选结果的每一个局部特征值、每一个全局特征值、每一个局部特征值的权值以及每一个全局特征值的权值,计算每一个实体链接候选结果的分数;S54,将所有实体链接候选结果中分数最高的链接结果作为输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710069468.X/,转载请声明来源钻瓜专利网。